Project Glasswing: el modelo de IA de Anthropic que no puedes usar encontró 10.000 vulnerabilidades críticas en un mes

Anthropic publicó el 22 de mayo de 2026 los primeros resultados cuantitativos de Project Glasswing, la iniciativa de ciberseguridad lanzada en abril que pone su modelo no publicado Claude Mythos Preview al servicio de aproximadamente 50 organizaciones socias para detectar vulnerabilidades en software crítico. El balance del primer mes: más de 10.000 vulnerabilidades de severidad alta o crítica descubiertas. La tasa de detección en las organizaciones participantes aumentó en un factor de más de diez respecto a sus métodos anteriores. El modelo ha encontrado tantos bugs que algunos socios están tardando más en parchear de lo que el sistema tarda en detectar nuevos.

Cloudflare encontró 2.000 vulnerabilidades, de las cuales 400 son de alta o crítica severidad, con una tasa de falsos positivos por debajo de la media humana. Mozilla había reportado previamente el hallazgo de 271 vulnerabilidades en Firefox 150, diez veces más que en una ronda anterior con Claude Opus 4.6. Microsoft ha comunicado públicamente que sus parches mensuales «continuarán siendo más grandes de lo habitual por algún tiempo», una referencia directa a los bugs descubiertos por Mythos Preview. En paralelo al trabajo con socios, Anthropic escaneó de forma autónoma más de 1.000 proyectos open-source y encontró 6.202 vulnerabilidades de alta o crítica severidad sobre un total de 23.019 detectadas.

Mythos Preview: el modelo que Anthropic no lanzará al público

Claude Mythos Preview es la versión más avanzada de Claude, significativamente más capaz que la familia Opus-Sonnet que está disponible en el mercado. Lo que lo hace extraordinario en ciberseguridad —y lo que hace que Anthropic se niegue a publicarlo— es que no solo detecta vulnerabilidades: también construye exploits funcionales autónomamente para verificar que la vulnerabilidad es real y explotable. Encontrar un bug es una cosa; demostrar que se puede usar para comprometer un sistema es otra, y Mythos Preview puede hacer ambas cosas sin supervisión humana.

El UK AI Security Institute confirmó que Mythos Preview es el primer modelo que resolvió completamente sus simulaciones de ciberataque multistep, escenarios diseñados para evaluar si una IA puede ejecutar una cadena compleja de acciones de ataque de principio a fin. Hasta la aparición de Mythos, ningún modelo había llegado al final de esos escenarios de forma autónoma.

El CVE-2026-5194 es un ejemplo concreto: una vulnerabilidad crítica en la biblioteca criptográfica wolfSSL que Mythos encontró en su escaneo de proyectos open-source. La falla permite falsificar certificados de seguridad, lo que podría usarse para suplantar dominios bancarios o de correo electrónico en ataques de phishing avanzado. Mythos no solo identificó el bug sino que construyó un exploit funcional para él.

El problema que nadie anticipó: demasiados bugs para parchear

El primer resultado de los datos de Glasswing es prometedor. El segundo resultado es inquietante: las organizaciones participantes están encontrando más vulnerabilidades de las que pueden reparar con sus equipos actuales. Microsoft ha avisado a sus usuarios de que los parches de Windows serán más grandes que de costumbre «por algún tiempo» precisamente porque Mythos encontró un número de bugs que el equipo de seguridad de Microsoft no había detectado en años de revisiones convencionales. Anthropic ha señalado en su informe que la velocidad de descubrimiento ha superado la velocidad de remediación en varios de sus socios.

Eso plantea una pregunta incómoda: si un modelo de IA puede encontrar miles de vulnerabilidades en semanas, y los equipos de seguridad humanos no pueden parchearlas todas en el mismo período, ¿qué pasa cuando ese mismo modelo —o uno equivalente de un actor malicioso— opera sin las restricciones de Glasswing?

Más allá de la detección de bugs, Mythos Preview ayudó a un banco socio a detectar y prevenir una transferencia bancaria fraudulenta de 1,5 millones de dólares cuando atacantes comprometieron el correo electrónico de un cliente y realizaron llamadas telefónicas suplantando su identidad para autorizar la operación. El modelo analizó el patrón de comportamiento y marcó la transacción como sospechosa antes de que se ejecutara.

Anthropic presentó Claude Mythos y Project Glasswing en abril de 2026 con los primeros datos de semanas de operación —incluyendo un bug de 27 años en OpenBSD—. El informe de mayo es la actualización de resultados a 30 días. OpenAI lanzó Daybreak, su propia plataforma de ciberseguridad agentica con GPT-5.5, como respuesta competitiva directa con una estrategia diferente: mayor acceso a más socios frente al acceso ultra-restringido de Anthropic. Un hacker rusohablante que en enero de 2026 usó Claude para comprometer 600 firewalls en 55 países ilustra por qué Anthropic no quiere publicar Mythos: la versión ofensiva del mismo tipo de herramienta ya está siendo usada activamente.

¿Por qué no publicarlo?

Anthropic fue explícita en su informe: el motivo por el que Mythos Preview no está disponible al público es que ninguna empresa, incluyendo la propia Anthropic, ha desarrollado todavía las salvaguardas suficientes para prevenir que un modelo con estas capacidades sea usado de forma ofensiva.

La decisión de no publicar es también la admisión implícita de que existe el riesgo: si Mythos Preview puede construir exploits funcionales autónomamente, y alguien lo usara con malas intenciones, tendría en su poder una herramienta de ciberseguridad ofensiva sin precedentes históricos en términos de velocidad y escala.

Hay además otro vector: una firma de seguridad no identificada en el informe de Anthropic reportó que usó las capacidades de Mythos Preview para comprometer macOS. Eso no se puede decir en voz alta sobre un modelo disponible comercialmente.

Mi valoración

Project Glasswing es el avance más significativo en ciberseguridad defensiva asistida por IA que he visto documentado con datos reales. No son promesas de un benchmark: son 2.000 vulnerabilidades en Cloudflare, 271 en Firefox, un fallo de 27 años en OpenBSD. Los números son verificables porque las propias organizaciones los confirman.

Lo que más me convence es el enfoque restrictivo de Anthropic: negarse a publicar un modelo tan potente hasta tener salvaguardas suficientes es exactamente la decisión correcta y también la decisión comercialmente costosa. OpenAI eligió la escala con Daybreak; Anthropic eligió la precaución con Glasswing. Ambas son posiciones legítimas y el mercado decidirá cuál era la correcta en 12 meses.

Lo que más me preocupa es la asimetría fundamental del problema: Anthropic tiene ~50 partners usando Mythos de forma defensiva. Los actores maliciosos tienen modelos equivalentes o desarrollarán las mismas capacidades en los próximos meses. La ventana en la que la defensa está por delante del ataque es corta. La pregunta relevante no es si encontramos más vulnerabilidades con IA, sino si podemos parchearlas más rápido de lo que el adversario puede explotarlas.

Preguntas frecuentes

¿Puedo solicitar acceso a Claude Mythos Preview para mi empresa?

No, no en términos generales. Anthropic ha seleccionado a un grupo de aproximadamente 50 organizaciones partner que incluye empresas como Microsoft, Apple, Google, Cloudflare, Mozilla y JPMorgan Chase, más agencias gubernamentales. El acceso está limitado a trabajo defensivo de ciberseguridad y requiere acuerdo con Anthropic sobre los términos de uso. No hay una lista de espera pública ni proceso de solicitud abierto.

¿Cuándo podría estar disponible públicamente un modelo con estas capacidades?

Anthropic ha dicho explícitamente que Mythos Preview no se lanzará al público hasta que se desarrollen salvaguardas suficientes, sin dar un plazo. Claude Security, basado en Claude Opus 4.7 y con capacidades menores que Mythos, está disponible en beta pública para organizaciones Enterprise y puede ser el primer punto de acceso para empresas que quieran usar IA en ciberseguridad defensiva.

¿Los bugs encontrados por Glasswing ya están parchados?

Depende del bug y de la organización. Cloudflare, Mozilla y los demás socios han trabajado en parchear las vulnerabilidades encontradas. El CVE-2026-5194 en wolfSSL fue patcheado después de su descubrimiento. Sin embargo, el volumen de bugs encontrados ha superado la capacidad de remediación de algunos socios, y Microsoft advirtió que sus parches seguirán siendo más grandes que lo habitual durante un período indeterminado.