Interrupción de Facebook: Un solo comando erróneo derribó la “columna vertebral” de la red, dice la empresa
El apagón en WhatsApp, Instagram y Facebook se produjo por un comando erróneo emitido durante un "trabajo de mantenimiento rutinario”
El mayor apagón de la historia de Facebook fue causado por un comando erróneo que dio lugar a lo que el gigante de las redes sociales dijo que era “un error provocado por nosotros mismos”.
“Hemos hecho un gran trabajo para reforzar nuestros sistemas y evitar accesos no autorizados, y ha sido interesante ver cómo ese refuerzo nos ha ralentizado mientras tratábamos de recuperarnos de una interrupción causada no por una actividad maliciosa, sino por un error propio”, decía el nuevo post publicado el martes.
Santosh Janardhan, vicepresidente de ingeniería e infraestructura de Facebook, explicó en el post por qué y cómo se produjo el apagón de seis horas y los retos técnicos, físicos y de seguridad a los que se enfrentaron los ingenieros de la compañía para restablecer los servicios.
Según Janardhan, la razón principal de la interrupción fue una orden errónea durante los trabajos de mantenimiento rutinarios.
Los ingenieros de Facebook se vieron obligados a acceder físicamente a los centros de datos que forman la “red troncal global” y a superar varios obstáculos para solucionar el error causado por la orden equivocada.
Sin embargo, una vez solucionados estos errores, se les planteó otro reto, en forma de gestión de un “aumento del tráfico” que se produciría como consecuencia de la solución de los problemas.
Janardhan, en el post, explicó cómo el error fue provocado “por el sistema que gestiona la capacidad de nuestra red troncal global”.
“La red troncal es la red que Facebook ha construido para conectar todas nuestras instalaciones informáticas entre sí, que consiste en decenas de miles de kilómetros de cables de fibra óptica que cruzan el mundo y conectan todos nuestros centros de datos”, decía el post.
La totalidad de las solicitudes de los usuarios de Facebook, incluida la carga de noticias o el acceso a los mensajes, se gestiona desde esta red, que atiende las peticiones de los centros de datos más pequeños.
Para gestionar eficazmente estos centros, los ingenieros se encargan del mantenimiento diario de la infraestructura, lo que incluye desconectar parte de la "red troncal", añadir más capacidad o actualizar el software de los routers que gestionan todo el tráfico de datos.
“Éste fue el origen de la interrupción de ayer”, dijo Janardhan.
“Durante uno de estos trabajos rutinarios de mantenimiento, se emitió un comando con la intención de evaluar la disponibilidad de la capacidad de la red troncal global, lo que involuntariamente hizo caer todas las conexiones de nuestra red troncal, desconectando efectivamente los centros de datos de Facebook en todo el mundo”, añadió.
Lo que complicó las cosas fue que el comando erróneo que causó la desconexión no pudo ser auditado porque un error en la herramienta de auditoría de la compañía impidió que se detuviera el comando, decía el post.
Entonces se produjo una “desconexión completa” entre los centros de datos de Facebook e Internet, algo que “provocó un segundo problema que empeoró las cosas”.
La totalidad de la “red troncal” de Facebook quedó fuera de servicio, haciendo que las ubicaciones de los centros de datos se autodesignaran como “insalubres”.
"El resultado final fue que nuestros servidores DNS se volvieron inalcanzables a pesar de que todavía estaban operativos", decía el post.
Los Sistemas de Nombres de Dominio (DNS) son sistemas a través de los cuales las direcciones de páginas web tecleadas por los usuarios se traducen en direcciones de Protocolo de Internet (IP) que pueden ser leídas por las máquinas.
“Esto hizo que el resto de Internet no pudiera encontrar nuestros servidores”.
Janardhan dijo que esto dio lugar a dos desafíos. El primero era que los ingenieros de Facebook no podían acceder a los centros de datos por medios normales debido a la interrupción de la red.
El segundo fue que las herramientas internas de la empresa que normalmente utiliza para resolver este tipo de problemas estaban “descompuestas”.
Los ingenieros se vieron obligados a acudir a estos centros de datos, donde tuvieron que “depurar el problema y reiniciar los sistemas”.
Sin embargo, esto no resultó ser una tarea fácil, ya que los centros de datos de Facebook cuentan con importantes coberturas físicas y de seguridad que están diseñadas para ser “difíciles de penetrar”.
Janardhan señaló que los routers y el hardware de la empresa están diseñados para que sean difíciles de modificar, a pesar del acceso físico.
“Así que se necesitó tiempo adicional para activar los protocolos de acceso seguro necesarios para que la gente estuviera en el lugar y pudiera trabajar en los servidores. Solo entonces pudimos confirmar el problema y volver a poner en línea nuestra red troncal”, dijo.
Los ingenieros se enfrentaron entonces a un último obstáculo: no podían simplemente restablecer el acceso a todos los usuarios del mundo, porque el aumento del tráfico podría provocar más caídas. Revertir las enormes caídas en el uso de la energía por parte de los centros de datos también podría poner “todo, desde los sistemas eléctricos hasta los cachés, en peligro”.
Los “simulacros de tormenta” realizados anteriormente por la empresa permitían volver a poner en marcha los sistemas de forma lenta y segura, según el comunicado.
“Creo que una compensación como ésta merece la pena: Una mayor seguridad en el día a día frente a una recuperación más lenta de un acontecimiento que, con suerte, es poco frecuente”, concluyó Janardhan.
La interrupción de Facebook, que afectó a todos sus servicios, incluidos WhatsApp e Instagram, supuso una pérdida personal de alrededor de 7.000 millones de dólares para el director ejecutivo, Mark Zuckerberg, al tiempo que el valor de las acciones de la empresa cayó. Zuckerberg ha pedido disculpas a los usuarios por las molestias causadas por la interrupción del servicio.