Cloudflare y el error que desconectó al 20% de Internet: qué pasó y por qué fue tan grave

Publicado el

caida internet

El pasado martes, una gran parte de los usuarios de Internet se encontraron con una pared invisible: sus webs favoritas no cargaban. Sitios tan populares como ChatGPT, X (antes Twitter) y Canva dejaron de estar disponibles por varias horas. El común denominador era uno: Cloudflare, la empresa que opera una de las redes más grandes del mundo para la distribución de contenido y protección contra ciberataques. Esta caída afectó a más del 20% del tráfico global de Internet, lo que la convierte en uno de los errores técnicos más impactantes desde 2019.

Qué es Cloudflare y por qué es tan importante

Para entender la magnitud del problema, primero hay que comprender el papel que juega Cloudflare. Esta compañía actúa como un intermediario entre los sitios web y sus visitantes. Funciona como un escudo de seguridad y, al mismo tiempo, como un acelerador de contenido, garantizando que las páginas se carguen rápidamente y de forma segura en todo el mundo. Cuando algo falla en su infraestructura, los efectos se propagan como una caída de fichas de dominó.

El error que provocó la caída

Según explicó Matthew Prince, CEO y cofundador de Cloudflare, el problema fue interno y no tuvo relación con ningún ciberataque. Todo comenzó con un cambio en los permisos de uno de sus sistemas de bases de datos, lo que provocó que se generara un archivo llamado “feature file” para el sistema de gestión de bots. Este archivo duplicó su tamaño esperado, superando los límites previstos por el software encargado de procesarlo.

Ese archivo, que se regeneraba cada cinco minutos, comenzó a distribuirse de forma errática por los servidores de Cloudflare. Algunos nodos de su base de datos ClickHouse ya habían sido actualizados, mientras que otros no, creando un escenario caótico en el que versiones dañadas del archivo se alternaban con versiones funcionales. Como resultado, el sistema entró en un bucle de errores y recuperaciones intermitentes, dificultando enormemente el diagnóstico.

Consecuencias del fallo en cadena

Este error afectó a múltiples servicios. Las páginas protegidas por Cloudflare comenzaron a mostrar códigos de error HTTP 500, un indicativo de fallos internos en los servidores. El sistema Turnstile, que verifica que los usuarios no sean bots, dejó de funcionar, bloqueando accesos a plataformas que dependen de él. Servicios clave como Workers KV, el almacén de datos clave-valor, también comenzaron a fallar. Incluso los filtros de detección de spam en correo electrónico se vieron comprometidos al perder acceso a las fuentes de reputación IP.

Como en una ciudad sin semáforos, donde cada cruce se convierte en un caos, la infraestructura de Cloudflare sufrió un colapso orquestado por un archivo defectuoso que nadie detectó a tiempo.

Diagnóstico y solución

Inicialmente, el patrón de errores hizo pensar al equipo de ingeniería que se trataba de un ataque DDoS, es decir, una sobrecarga intencional de tráfico para colapsar servidores. Pero pronto se identificó que el problema era un fallo de configuración. Una vez descubierto, detuvieron la propagación del archivo dañado, restauraron una versión funcional y reiniciaron los servicios principales.

La recuperación fue progresiva: el tráfico comenzó a normalizarse a las 14:30 UTC y la operación completa se restableció hacia las 17:06 UTC. El CEO reconoció que una interrupción de esta magnitud es «inaceptable» y aseguró que se tomarán medidas para hacer los sistemas más resistentes y tolerantes a fallos.

Lecciones que deja este incidente

Este tipo de caídas son un recordatorio de cómo una pequeña modificación en un sistema crítico puede tener un impacto desproporcionado. En el mundo digital, todo está interconectado como si fuera un edificio lleno de sensores: si uno de ellos lanza una señal errónea, puede activar una cadena de reacciones inesperadas.

La transparencia con la que Cloudflare ha abordado el tema, compartiendo un análisis detallado en su blog oficial, es también una buena práctica. Permite que otros profesionales de la tecnología aprendan de este error y refuercen sus propias infraestructuras.