Investigador hackea agentes de IA de Anthropic, Google y Microsoft con prompt injection: roban credenciales, las tres pagan bug bounties y silencian la vulnerabilidad sin asignar CVE

Aonan Guan, investigador de seguridad, ha demostrado durante varios meses que los agentes de IA de Anthropic, Google y Microsoft pueden ser secuestrados mediante ataques de prompt injection para robar API keys, tokens de GitHub y otros secretos. Las tres compañías pagaron bug bounties (100 dólares Anthropic, 500 dólares GitHub, una cantidad no revelada Google), pero ninguna publicó un advisory público ni asignó un CVE, dejando a los usuarios que ejecutan versiones antiguas de estas integraciones sin posibilidad de saber que están expuestos. La historia, reportada por Alina Maria Stan en TheNextWeb este 15 de abril citando a The Register, deja al descubierto un problema estructural mucho más grande que el técnico: el ecosistema de divulgación responsable que sostiene la seguridad informática moderna no tiene aún un marco para tratar las vulnerabilidades de los agentes de IA, y las compañías están aprovechando ese vacío para resolver los problemas en silencio.

Las tres herramientas afectadas y por qué fallan igual

Las herramientas afectadas son tres muy específicas: Claude Code Security Review de Anthropic, Gemini CLI Action de Google y Copilot Agent de GitHub. Todas comparten una arquitectura común: leen contenido de GitHub (títulos de pull requests, descripciones de issues, comentarios), lo procesan como contexto de tarea y luego ejecutan acciones. Y todas comparten la misma debilidad: ninguna distingue de forma fiable entre contenido legítimo y instrucciones inyectadas. La técnica básica que usó Guan se llama indirect prompt injection: en lugar de atacar directamente al modelo, embebe las instrucciones maliciosas en sitios donde el agente confía por diseño. Contra Claude Code Security Review (que escanea pull requests buscando vulnerabilidades), Guan creó un PR con un título que contenía un payload de inyección. Claude ejecutó las instrucciones embebidas e incluyó la salida (incluyendo credenciales filtradas) en su respuesta JSON, que luego se publicó como comentario del PR para que cualquiera lo viera. El ataque permitía exfiltrar la API key de Anthropic, tokens de GitHub y otros secretos del entorno del runner de GitHub Actions.

Tres ataques, un mismo patrón estructural

El ataque a Gemini siguió el mismo patrón pero con un giro: Guan inyectó una falsa «trusted content section» después del contenido legítimo en una issue de GitHub. Gemini CLI Action interpretó el texto inyectado como autoritativo y publicó su propia API key como comentario de la issue. El ataque a Copilot fue el más sutil de los tres: Guan ocultó las instrucciones maliciosas dentro de un comentario HTML en una issue, lo que las hace invisibles en el Markdown renderizado que ven los humanos pero perfectamente visibles para el agente que parsea el contenido raw. Cuando un desarrollador asignaba la issue a Copilot Agent, el bot seguía las instrucciones ocultas sin cuestionarlas. Lo que tienen en común los tres ataques es lo que hace que el problema sea estructural: los modelos de lenguaje no pueden separar de forma fiable datos de instrucciones. Cuando un agente lee una issue, trata el texto como input sobre el que razonar, pero un prompt injection bien construido convierte ese input en una orden ejecutable.

La respuesta de Anthropic, Google y GitHub: bounties bajos y silencio

La respuesta de las tres compañías es lo más revelador. Anthropic recibió el reporte en HackerOne en octubre de 2025, confirmó que la técnica también podía robar tokens de GitHub más sensibles, pagó 100 dólares de bounty en noviembre y elevó la severidad crítica de 9,3 a 9,4. Actualizó la sección de «consideraciones de seguridad» en su documentación pero no publicó advisory ni asignó CVE. GitHub inicialmente desestimó el reporte como «issue conocido» que «no podía reproducir», pero acabó pagando 500 dólares en marzo. Google pagó una cantidad no revelada por la vulnerabilidad de Gemini. Ninguno asignó CVE ni publicó advisory. Para Guan, esto es el problema central: los usuarios que ejecutan versiones antiguas de estas integraciones nunca sabrán que están expuestos. Sin CVE, los escáneres de vulnerabilidades no marcan el problema. Sin advisory, los equipos de seguridad no tienen artefacto que rastrear.

Por qué este caso no es aislado

El contexto agrava el cuadro. OpenAI ya advirtió en diciembre que la prompt injection podría no tener «cura» definitiva en agentes de navegador como ChatGPT Atlas. Investigadores de Miggo Security demostraron en enero que Gemini podía secuestrarse mediante invitaciones de calendario con instrucciones ocultas. El Git MCP server de Anthropic acumulaba tres CVEs por backdoors inyectables vía repositorios. Una revisión sistemática de 78 estudios publicada en enero encontró que cada agente de coding probado (Claude Code, GitHub Copilot, Cursor) era vulnerable a prompt injection, con tasas de éxito superiores al 85% para ataques adaptativos. Y un audit de seguridad sobre casi 4.000 skills del marketplace de ClawHub encontró que más de un tercio contenía al menos un fallo de seguridad y un 13,4% tenía issues críticos. La superficie de ataque es enorme y crece cada semana.

Vulnerabilidades emergentes, daños clásicos

La consecuencia más preocupante es que estos ataques son técnicamente indistinguibles, en sus efectos, de los de una vulnerabilidad clásica. Un atacante que exfiltra un token de GitHub vía prompt injection puede hacer exactamente el mismo daño que uno que explota un buffer overflow. Pero la industria ha decidido tratar estas vulnerabilidades como un caso especial donde no aplica el modelo de divulgación tradicional. La justificación interna («son comportamientos emergentes del modelo, no bugs en el código») es razonable desde un punto de vista filosófico pero indefendible desde el punto de vista práctico. Si estás familiarizado con cómo funciona la inyección de prompt, la técnica esencialmente convierte cualquier dato externo en código ejecutable, y las defensas (system prompts más fuertes, sanitización de input, filtrado de output) son parciales en el mejor de los casos.

Qué ha cambiado desde la publicación original

Actualización a 25 de abril de 2026: el propio Aonan Guan publicó en su blog la metodología completa bajo el nombre «Comment and Control», confirmado también por SecurityWeek y The Register. Dos detalles concretos que afinan la noticia: el bounty de Google se conoce ahora públicamente y fue de 1.337 dólares (no «una cantidad no revelada»), y Guan ha acreditado a los investigadores Zhengyu Liu y Gavin Zhong de Johns Hopkins University como colaboradores en el estudio.

VentureBeat ha publicado además un análisis señalando que el system card de uno de los proveedores ya anticipaba este patrón de exfiltración semanas antes del PoC, lo que añade presión para que la divulgación sea proactiva y no reactiva. La conversación pública sobre asignar CVEs a vulnerabilidades de agentes de IA sigue abierta, sin movimiento por parte de MITRE a fecha de hoy.

Mi valoración

lo que más debería preocupar a cualquier organización que ha integrado agentes de IA en su pipeline de CI/CD no es el técnico sino el de transparencia. Las tres compañías pagaron menos por estas vulnerabilidades críticas que lo que muchas pagan por bugs triviales en sus webs corporativas. Es como si un mecánico encontrara un defecto serio en un coche y la fábrica decidiera repararlo en silencio sin notificar a los conductores que ya tienen ese modelo. La razón comercial es clara (no quieren que la prensa explote el agujero), pero la consecuencia es que organizaciones que están ejecutando versiones desactualizadas de estos agentes están expuestas y no lo saben. La presión regulatoria llegará. El EU AI Act, que entra en vigor en agosto, exigirá transparencia en sistemas de alto riesgo, y los marcos como NIST AI RMF están avanzando rápido. Hasta que esa presión se materialice, la recomendación práctica es asumir que cualquier agente de IA con acceso a credenciales o sistemas sensibles es un objetivo de alto valor, revisar el comportamiento de los agentes y aplicar el principio de menor privilegio, y exigir a los proveedores publicar CVEs cuando se encuentren vulnerabilidades, aunque tengan que pagar más bounties para incentivar la divulgación.

Preguntas frecuentes

¿Soy vulnerable si uso Claude Code, Gemini CLI o GitHub Copilot Agent?

Si usas las versiones más recientes con los parches aplicados (publicados entre enero y marzo de 2026), el riesgo conocido está mitigado. El problema es que sin CVE, no hay forma automática de saber qué versiones son vulnerables.

¿Qué es prompt injection indirecto?

Una técnica que embebe instrucciones maliciosas en contenido externo (issues, comentarios, emails, calendarios) que el agente lee como contexto y luego ejecuta como si fueran órdenes legítimas.

¿Por qué no asignaron CVEs?

Porque no existe consenso en la industria sobre cómo tratar vulnerabilidades de agentes de IA, que son comportamientos emergentes del modelo más que bugs de código clásicos. Las compañías aprovechan ese vacío para resolver los problemas en silencio.