Facebook: Se cayó y fue muy dificil de arreglar el fallo

Los ingenieros tuvieron que ir en persona a un centro de servidores en California.
0
235

Una interrupción global prolongada de las aplicaciones de Facebook hizo que los ingenieros de la compañía se esforzaran por solucionar el problema en uno de sus centros de datos en California, según dos personas familiarizadas con la situación.

La interrupción, que comenzó alrededor de las 11:40 a.m. ET del lunes, derribó todas las aplicaciones de Facebook, incluidas Instagram y WhatsApp, a nivel mundial, lo que afectó a miles de millones de usuarios y millones de anunciantes. Dentro de Facebook, la interrupción también rompió casi todos los sistemas internos que los empleados usan para comunicarse y trabajar. A las 6 p.m. ET, parece que la mayoría de los servicios están nuevamente en línea.

Varios empleados le dijeron a The Verge que recurrieron a hablar a través de sus cuentas de correo electrónico de Outlook proporcionadas por el trabajo, ya que Facebook se ejecuta principalmente en una versión interna de la red social que actualmente no es accesible. Si bien los empleados podían enviarse correos electrónicos entre sí, no podían enviar ni recibir correos electrónicos de direcciones externas.

Dado que Facebook requiere que los empleados inicien sesión con sus cuentas de trabajo para acceder a herramientas como Google Docs y Zoom, esos servicios tampoco estaban funcionando, lo que llevó a algunos empleados a utilizar servicios alternativos como FaceTime y Discord de Apple. Los empleados que ya estaban autenticados con herramientas que no eran de Facebook, como Google Docs, antes de que comenzara la interrupción, aún tenían acceso.

Los ingenieros de Facebook fueron enviados a uno de sus principales centros de datos de EE. UU. En California para restaurar el servicio, lo que significa que la solución no se pudo realizar de forma remota. Para complicar aún más las cosas, la interrupción interrumpió temporalmente la capacidad de algunos empleados para acceder a los edificios de la empresa y las salas de conferencias con sus credenciales, según The New York Times, que informó por primera vez que se habían enviado ingenieros al centro de datos.

En un correo electrónico enviado a los empleados poco después de que se restableciera el servicio, el CTO Mike Schroepfer dijo que el problema estaba “afectando nuestra red troncal que conecta todos nuestros centros de datos”.

“Si no está trabajando activamente en la recuperación, tenga paciencia y no se apresure a recargar todo para evitar ralentizar la activación” de la red, advirtió en el memo que fue visto por The Verge.

Facebook no ha proporcionado una explicación detallada de la interrupción, aunque los expertos externos dicen que se debió a un problema con la tecnología de red BGP o Border Gateway Protocol.

El lunes por la noche, el vicepresidente de infraestructura de Facebook, Santosh Janardhan, publicó una publicación en el blog corporativo diciendo que la interrupción fue el resultado de un “cambio de configuración defectuoso”, y agregó que la compañía “no tiene evidencia de que los datos del usuario se hayan visto comprometidos como resultado de este tiempo de inactividad”. ”

“Nuestros equipos de ingeniería han aprendido que los cambios de configuración en los enrutadores troncales que coordinan el tráfico de red entre nuestros centros de datos causaron problemas que interrumpieron esta comunicación”, escribió Janardhan. “Esta interrupción del tráfico de la red tuvo un efecto en cascada en la forma en que se comunican nuestros centros de datos, lo que paralizó nuestros servicios”.

Leave a reply