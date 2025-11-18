Miles de usuarios en todo el mundo no pudieron acceder la mañana de este martes a las principales plataformas, entre ellas la red social X y ChatGPT, debido a que la empresa de infraestructuras web Cloudflare sufrió una caída que afectó a los servicios en línea.

Aunque los primeros reportes se limitaron a describir pantallas de error y picos de fallas en sitios de monitoreo como Downdetector, el alcance fue mayor: la interrupción afectó también a Spotify, aplicaciones de mensajería, videojuegos en línea y servicios de inteligencia artificial que dependen de Cloudflare para enrutar y proteger su tráfico.

La compañía, cuya red gestiona en torno a una quinta parte del tráfico web global, reconoció que comenzó a investigar una degradación interna del servicio hacia las 05:40 horas de México, tras detectar un volumen anómalo de errores.

Horas más tarde, Cloudflare difundió primero una declaración oficial en español y después un informe técnico firmado por su director general, Matthew Prince. Ahí quedó claro que el apagón no fue producto de un ataque informático, sino de un error interno que se propagó por la red y terminó convirtiéndose en una caída global.

¿Qué pasó dentro de Cloudflare?

Según el propio Prince, el 18 de noviembre a las 05:20 horas de México la red de Cloudflare empezó a registrar fallas significativas para entregar tráfico central. Para los usuarios, eso se tradujo en páginas con errores 5xx al intentar acceder a los servicios que usan la plataforma como intermediario.

“Nuestra red comenzó a experimentar fallas significativas para entregar tráfico esencial a partir de las 05:20 horas”, reconoció el directivo en su informe técnico.

La explicación interna apunta a un cambio de configuración en una base de datos que Cloudflare utiliza para su sistema de gestión de bots. Un ajuste en los permisos hizo que una consulta empezara a devolver filas duplicadas y generara un “feature file”, un archivo de características que alimenta un modelo de aprendizaje automático, mucho más grande de lo previsto. Ese archivo se distribuye cada pocos minutos a los servidores de la red para mantenerlos al día frente a nuevas amenazas.

“El problema no fue causado, directa ni indirectamente, por un ciberataque o actividad maliciosa de ningún tipo. Fue provocado por un cambio en los permisos de uno de nuestros sistemas de base de datos, que hizo que se generara un archivo de características más grande de lo esperado”, dijo Prince.

Ese archivo sobredimensionado superó el límite de 200 características que el módulo de bots estaba preparado para manejar. Cuando llegó a los servidores, el sistema entró en “pánico”: el código encontró un error no manejado y empezó a responder con códigos 5xx a las solicitudes que pasaban por el proxy central de Cloudflare.

Cómo se vio desde fuera: X, ChatGPT y Spotify sin servicio

Mientras el error se propagaba por la infraestructura, lo que vieron los usuarios fue simple. X dejó de cargar con normalidad, ChatGPT arrojaba mensajes de error, Spotify no lograba conectarse y otras aplicaciones en línea se quedaron congeladas.

En páginas de reporte de fallas se registraron miles de incidencias vinculadas tanto a estos servicios como a Cloudflare, con un pico cercano a las 5,000 notificaciones antes de irse reduciendo conforme avanzaba la contingencia.

Cloudflare es la capa intermedia que muchos de estos servicios utilizan para protegerse de ataques de denegación de servicio, filtrar tráfico sospechoso y acelerar la entrega de contenidos en distintas regiones del mundo. Cuando esa capa falla, el síntoma para el usuario final es que “se cae” la plataforma, aunque el problema esté en la infraestructura intermedia.

“Un problema en la red de Cloudflare afectó a una gran parte del tráfico que depende de nosotros”, admitió el director técnico de la compañía, Dane Knecht.

En paralelo, sitios de monitoreo como Downdetector comenzaron a reportar interrupciones en X, en servicios de videojuegos como League of Legends y en algunos productos de Google y de OpenAI, lo que terminó de confirmar que no se trataba de una caída aislada, sino de un punto de falla común.

La cronología del apagón

Los documentos internos de Cloudflare permiten reconstruir la secuencia casi minuto a minuto en tiempo local. El cambio en los permisos de la base de datos ocurrió a las 05:05 horas. Minutos después, a las 05:28, los equipos empezaron a observar errores en el tráfico HTTP de los clientes y elevaron la alerta interna.

“El primer sistema automático de pruebas detectó el problema a las 05:31 y la investigación manual comenzó a las 05:32; la llamada de incidente se creó a las 05:35”, detalla el reporte.

A las 07:05 se aplicaron desvíos internos para que servicios como Workers KV y Cloudflare Access dejaran de depender del proxy afectado, lo que redujo parte del impacto. A las 07:37, el foco pasó a restaurar una versión anterior del archivo de configuración que había detonado la falla. A las 08:24 se detuvo la creación y propagación de nuevos archivos de Bot Management y se probó que la versión “buena” permitía recuperar el servicio.

“A las 08:30 el impacto principal quedó resuelto y los servicios afectados aguas abajo empezaron a observar menos errores”, resume la cronología interna.

El restablecimiento completo de todos los sistemas llegó hasta las 11:06 horas de México, cuando la compañía dio por finalizado el incidente.

“Un apagón inaceptable”

En su balance, Matthew Prince reconoce que se trató del peor apagón que ha enfrentado Cloudflare desde 2019 y que el resultado es incompatible con el papel que la compañía asegura desempeñar en la red.

“Una interrupción como la de hoy es inaceptable. Hemos diseñado nuestros sistemas para que sean muy resilientes a las fallas. […] En nombre de todo el equipo de Cloudflare, quiero disculparme por el dolor que causamos a internet hoy”, escribió el directivo.

En una declaración dirigida a clientes de habla hispana, la empresa insistió en que “no hay evidencia de que esto haya sido resultado de un ataque o de una actividad maliciosa” y prometió aprender del incidente.

“Dada la importancia de los servicios de Cloudflare, cualquier interrupción es inaceptable. Pedimos disculpas a nuestros clientes y, en general, a toda la comunidad de internet por haberlos defraudado hoy. Aprenderemos de este incidente y mejoraremos”, añadió la compañía.

Desde fuera, el episodio reaviva un debate que ya se había abierto con fallas recientes en las nubes de Microsoft y Amazon Web Services: la dependencia de un puñado de grandes proveedores que concentran buena parte del tráfico y los servicios críticos de internet.

Lo que dice la infraestructura mexicana

En México, la caída de Cloudflare se suma a una lista de interrupciones de grandes plataformas que han puesto bajo la lupa la resiliencia de la infraestructura digital. Para Amet Novillo, director de la Asociación Mexicana de Data Centers (MEXDC) y director de Equinix en México, es importante distinguir entre la capa física, el centro de datos, y las capas de software y configuración donde suelen originarse estos problemas.

“El alcance del data center y de nuestra asociación no está más allá del software. Nosotros nos limitamos a ver la parte de infraestructura; el manejo de la aplicación como tal es del cliente final”, dijo.

Novillo destacó que los centros de datos están diseñados para no quedarse sin energía y mantener la conectividad incluso ante fallas externas.

“El data center no se queda sin energía. Tiene sistemas de respaldo suficientes para que siempre haya energía y siempre haya conectividad. Lo que adentro haga el aplicativo ya no es responsabilidad nuestra”, remató.

Para empresas, gobiernos y usuarios mexicanos que dependen de plataformas como X, Spotify o ChatGPT, la lección es doble: por un lado, entender que un cambio de configuración en un proveedor global puede dejar sin servicio a millones de personas; por otro, que la continuidad operativa no se garantiza sólo con contratar un buen centro de datos, sino también diversificando proveedores en la nube, diseñando arquitecturas que toleren fallas y planificando qué hacer cuando una pieza clave de la infraestructura mundial de internet se apaga por error.

rodrigo.riquelme@eleconomista.mx