La “fiebre” de los agentes de IA ya está aquí y la web no tiene barandillas suficientes

Durante años, la idea dominante de la inteligencia artificial de consumo fue la del asistente conversacional: tú preguntas, el sistema responde. En 2025 y 2026 esa imagen se ha quedado corta porque han proliferado los agentes de IA, herramientas que no solo contestan, sino que ejecutan tareas encadenadas con poca intervención humana: buscar información, abrir webs, rellenar formularios, iniciar sesión, reservar, programar, mover archivos o coordinar pasos como si fueran un becario incansable con acceso a tu navegador.

Un ejemplo reciente, citado por Gizmodo (AJ Dellinger, 19 de febrero de 2026), es el caso de OpenClaw, un agente open source que “arrasó” por sus capacidades autónomas y por la inquietud que generó en seguridad. El problema es que el debate suele quedarse en anécdotas: impresiona ver a un bot navegar como una persona, pero cuesta saber cuántos hay, qué hacen realmente y con qué normas. Para poner números y contexto, el MIT a través de CSAIL publicó su AI Agent Index 2025, un inventario y análisis de agentes en operación “en la naturaleza”, con foco en transparencia y guardarraíles.

Un boom medible: investigación disparada y empresas experimentando

El índice del MIT CSAIL retrata una aceleración clara: en 2025, los artículos que mencionan “AI Agent” o “Agentic AI” superaron en volumen a todo lo acumulado entre 2020 y 2024, según el propio informe recogido por Gizmodo. Y en paralelo, una encuesta de McKinsey señalaba que el 62% de las empresas ya estaba, como mínimo, experimentando con agentes de IA.

Esa combinación —academia empujando conceptos y empresas probando productos— explica por qué el mercado se llenó de propuestas muy distintas. El informe agrupa 30 agentes “prominentes” en tres familias que ayudan a entender el panorama: opciones conversacionales (como ChatGPT Agent o Claude Code), agentes centrados en el navegador (como Perplexity Comet o ChatGPT Atlas) y soluciones empresariales tipo Microsoft 365 Copilot o ServiceNow Agent. No ofrece un contador total de agentes desplegados en toda la web, pero sí un mapa de cómo se comportan y, sobre todo, de lo que falta para que su presencia sea verificable y segura.

La brecha de seguridad: muchos agentes, poca documentación y poca norma común

El dato que más incomoda del AI Agent Index 2025 es la asimetría entre capacidad y control. Solo la mitad de esos 30 agentes incluye marcos de seguridad o confianza publicados, citando ejemplos como la Responsible Scaling Policy de Anthropic, el Preparedness Framework de OpenAI o el Responsible AI Standard de Microsoft. Un tercio no tiene documentación pública de marco de seguridad, y cinco de los treinta ni siquiera declaran estándares de cumplimiento.

Esto sería menos preocupante si habláramos de herramientas “de un solo paso”, pero el informe subraya que 13 de los 30 sistemas muestran niveles “de frontera” en agencia, es decir, que pueden operar durante secuencias largas con supervisión humana mínima. Los agentes de navegador tienden a ser los más autónomos. En términos cotidianos, es como darle a alguien las llaves del coche y el GPS, decirle “haz la compra y pasa por la farmacia”, y descubrir que nunca acordaste reglas sobre peajes, velocidad, dónde puede aparcar o qué hacer si alguien intenta colarse en el maletero.

El informe menciona casos como el “Autobrowse” de Google, diseñado para completar tareas de varios pasos navegando por diferentes sitios y usando información del usuario para iniciar sesión en su nombre. Esa capacidad es útil; también amplía la superficie de riesgo: más webs visitadas, más formularios, más permisos implícitos, más oportunidades para errores o abusos.

Cuando un agente parece humano: el problema de la identificación y el tráfico “camuflado”

Otra grieta importante es el disfraz involuntario —o deliberado— de los agentes. Según MIT CSAIL, 21 de 30 no ofrecen divulgación clara a usuarios finales o a terceros de que la interacción la realiza un agente de IA y no una persona. Resultado: gran parte de su actividad se confunde con tráfico humano.

En internet, la “placa” de un visitante es el User-Agent del navegador y, en parte, el contexto de red. El índice encontró que solo siete agentes publicaron cadenas de User-Agent estables y rangos de IP verificables. Casi el mismo número usa cadenas parecidas a Chrome y contextos de IP residenciales o locales para que sus peticiones parezcan humanas. Esto complica el trabajo de administradores web, equipos antifraude y sistemas de seguridad: distinguir entre un cliente real y un bot no es solo una cuestión ética, también impacta en costes, rendimiento, analítica y exposición a ataques.

Lo más delicado es que, para algunos, “parecer humano” se vende como ventaja competitiva. El informe apunta a BrowserUse, un agente open source que se promociona por sortear sistemas anti-bot y navegar “como un humano”. En la práctica, esto plantea un choque directo con el equilibrio de la web: los sitios publican normas, límites y señales para protegerse; los agentes buscan operar sin fricción.

Robots.txt, CAPTCHAs y APIs: el semáforo que muchos agentes ignoran

Hay una escena clásica en cualquier ciudad: cruces con semáforos, pasos de peatones y señales. La web tiene equivalentes: el archivo robots.txt para indicar reglas a los rastreadores, los CAPTCHAs para validar humanidad, y las APIs para ofrecer acceso estructurado sin tener que “raspar” páginas. El índice del MIT CSAIL encontró que más de la mitad de los agentes analizados no documenta de forma específica cómo maneja robots.txt, CAPTCHAs o APIs de los sitios.

La discusión aquí no es solo legal o de términos de uso; es de convivencia técnica. Un agente que ignora robots.txt o fuerza CAPTCHAs puede comportarse como alguien que entra a un edificio viendo un cartel de “solo personal autorizado” y decide que, como su jefe le pidió “recoger el paquete”, el cartel no aplica. Gizmodo recoge incluso la postura de Perplexity: que los agentes actuando en nombre del usuario no deberían estar sujetos a restricciones de scraping porque funcionan “como un asistente humano”. La analogía suena intuitiva, pero en escala masiva cambia el juego: un “humano asistente” no hace miles de solicitudes por minuto, no clona sesiones, no opera 24/7 y no multiplica su presencia con un clic.

Vulnerabilidades reales: inyecciones de prompt y el riesgo de acciones dañinas

Cuando un agente navega y actúa, no solo “lee” páginas: interpreta instrucciones, toma decisiones y ejecuta. Ahí entran ataques como la inyección de prompt, donde una web incluye texto oculto o instrucciones maliciosas para que el agente las siga, rompa políticas o exfiltre información. Si el agente tiene permisos para iniciar sesión, abrir correo, descargar archivos o ejecutar comandos, el impacto potencial crece.

El índice del MIT CSAIL señala que nueve de 30 agentes no documentan guardarraíles contra acciones potencialmente dañinas. Casi ninguno publica resultados de pruebas internas de seguridad, y 23 de 30 no aportan información de pruebas de terceros. Es un patrón preocupante: se despliegan “manos” capaces de tocar muchas cosas, pero el público no ve guantes, manual de seguridad ni auditorías.

Solo cuatro agentes —ChatGPT Agent, OpenAI Codex, Claude Code y Gemini 2.5— ofrecieron system cards específicas del agente, con evaluaciones adaptadas a cómo opera el sistema y no solo al modelo subyacente. Esto importa porque un modelo puede ser prudente en conversación y, sin embargo, volverse riesgoso cuando tiene herramientas: navegador, terminal, integraciones empresariales, acceso a calendarios o CRMs.

“Safety washing”: marcos bonitos, evidencias selectivas

El informe también critica una práctica que denomina “safety washing”: publicar marcos generales de ética y seguridad, a veces con foco en riesgos existenciales o de alineamiento conductual, mientras se omiten detalles sobre vulnerabilidades mundanas del día a día. Dicho de manera simple, es como colgar un póster enorme de “seguridad ante incendios” en la entrada del edificio y no revisar los extintores ni las puertas cortafuego.

Esto no implica mala fe automática: a veces hay motivos legítimos para no publicar información sensible que facilite ataques. Pero el equilibrio actual parece inclinarse hacia la opacidad, justo cuando los agentes ganan autonomía y se cuelan en flujos críticos de trabajo.

Un intento de estándar, un problema de escala

Hay señales de respuesta. El texto citado por Gizmodo menciona que en diciembre (en el contexto del artículo, diciembre de 2025) OpenAI y Anthropic, entre otros, se unieron para crear una fundación orientada a establecer un estándar de desarrollo para agentes de IA. Es un paso relevante, aunque el AI Agent Index 2025 deja claro que el hueco entre despliegue y transparencia sigue siendo grande: agentes entrando en la web y en empresas con supervisión mínima, poca divulgación y normas desiguales.

Si 2024 fue el año de “probar” agentes y 2025 el de multiplicarlos, 2026 está mostrando el coste de no acordar señales básicas: quién es agente, qué permisos tiene, cómo respeta normas del sitio, qué auditorías pasó y qué límites aplica cuando algo huele raro.