La interrupción global que impidió el acceso a Facebook y a sus otras plataformas durante horas a principios de semana fue producto de un error durante un mantenimiento rutinario, explicó la compañía.
Santosh Janardhan, vicepresidente de infraestructura de Facebook, dijo en una publicación en un blog que el apagón “no estuvo causado por una actividad maliciosa sino por un error de nuestra propia creación”.
El problema ocurrió cuando los ingenieros realizaban labores habituales en la red central global de Facebook: las computadoras, los enrutadores y el software en sus centros de datos de todo el mundo, además de los cables de fibra óptica que los conectan.
“Durante uno de esos trabajos rutinarios de mantenimiento, se emitió un comando con la intención de evaluar la disponibilidad de la capacidad de la red central global, lo que accidentalmente cortó todas las conexiones de nuestra red global, desconectando de facto los centros de datos de Facebook a nivel mundial”, explicó Janardhan.
Los sistemas de Facebook están diseñados para detectar ese tipo de errores, pero en este caso, un fallo en una herramienta de auditoría impidió frenar correctamente el comando, añadió.
El cambio desencadenó un segundo problema que empeoró la situación al imposibilitar llegar a los servidores, a pesar de que estaban operativos.
Los ingenieros se apuraron para arreglar el problema sobre el terreno, pero les llevó tiempo debido a las capas de seguridad adicionales, apuntó Janardhan. Los centros de datos son “de difícil acceso, y una vez que estás dentro, el hardware y los enrutadores están diseñados para que sea difícil modificarlos aunque tengas acceso físico a ellos”.
Una vez se recuperó la conectividad, los servicios se restablecieron de forma gradual para evitar picos de tráfico que pudiesen causar más fallos.