Etiqueta: prompt injection

NanoClaw: el agente de IA minimalista que apuesta por el aislamiento para ganar en seguridad

Publicado el 8 marzo, 2026

En pocas semanas, OpenClaw se convirtió en sinónimo de agente de IA “que hace cosas”: ordenar correos, mover citas del calendario, reservar servicios o ejecutar comandos en tu equipo. La promesa es seductora porque se parece a delegar tareas domésticas en un ayudante incansable. El problema es que, cuando le das a un software autonomía y acceso a cuentas, archivos y sesiones, también le estás entregando una copia de tus llaves.

Los incidentes recientes han servido de recordatorio práctico. Una investigadora de seguridad de Meta contó que un agente basado en OpenClaw empezó a borrar correos de su bandeja de entrada y no se detuvo pese a recibir órdenes de parar, obligándola a correr a su equipo para frenarlo manualmente, según relataron medios como TechCrunch y Business Insider. Más allá del daño puntual, la escena ilustra un riesgo común: los agentes no solo pueden equivocarse, también pueden actuar rápido, a gran escala y con consecuencias difíciles de revertir. Continúa leyendo «NanoClaw: el agente de IA minimalista que apuesta por el aislamiento para ganar en seguridad»

Cuando los agentes de IA se ponen a conversar: el lado oscuro del “multiagente” que ya asoma

Publicado el 5 marzo, 2026

por Natalia Polo

La conversación pública sobre agentes de IA suele quedarse en el agente “solitario”: un asistente que recibe una orden, consulta herramientas y ejecuta tareas. El problema es que la realidad técnica y comercial empuja hacia sistemas multiagente, con varios bots coordinándose, repartiéndose trabajo y compartiendo hallazgos. Y ahí, como cuando dos conductores se confían porque “el otro ya mirará”, aparecen fallos que no estaban en el guion.

Un reportaje de ZDNET recoge un hallazgo inquietante a partir de un estudio académico: cuando se prueba la interacción agente-a-agente, emergen modos de fallo cualitativamente nuevos y los errores pequeños se encadenan hasta provocar daños graves, desde servidores destruidos hasta ataques de denegación de servicio (DoS) y un consumo desbocado de recursos de cómputo. El trabajo, firmado por la investigadora Natalie Shapira y colaboradores de varias universidades, se presenta como un preprint en arXiv bajo un título tan explícito como “Agents of Chaos”. Continúa leyendo «Cuando los agentes de IA se ponen a conversar: el lado oscuro del “multiagente” que ya asoma»

Lockdown Mode en ChatGPT: el “modo búnker” para frenar la inyección de prompts

Publicado el 14 febrero, 2026

por Natalia Polo

A medida que ChatGPT y otros asistentes de IA dejan de ser solo “cajas de texto” y empiezan a navegar, abrir archivos o conversar con aplicaciones conectadas, cambia la escala del riesgo. No es lo mismo pedir una receta que pedirle al sistema que consulte un panel interno, lea un documento confidencial y prepare un informe. Cada nueva puerta que se abre hacia el exterior es una oportunidad para que alguien intente colarse.

OpenAI ha puesto el foco en un problema concreto: la inyección de prompts o prompt injection, una familia de ataques en la que un tercero intenta engañar al modelo para que siga instrucciones maliciosas o termine revelando datos sensibles. Si lo pensamos como una conversación normal, es como cuando alguien se mete en medio y, con tono convincente, intenta que cuentes algo privado “porque es urgente” o “porque lo pide tu jefe”. En IA, esa voz puede venir escondida en una web, en un archivo, en un correo o incluso en el texto que una app conectada le pasa al asistente.

Según explicó OpenAI en un comunicado fechado el 13 de febrero de 2026, su respuesta llega con dos novedades: Lockdown Mode y las etiquetas Elevated Risk para ciertas capacidades que, por su naturaleza, introducen un riesgo adicional. Continúa leyendo «Lockdown Mode en ChatGPT: el “modo búnker” para frenar la inyección de prompts»

Moltbot, el asistente de IA con alma de langosta que promete “hacer cosas” y plantea preguntas incómodas

Publicado el 30 enero, 2026

por Natalia Polo

La última fiebre por los asistentes personales de IA tiene un icono inesperado: una langosta. El proyecto que empezó llamándose Clawdbot y ahora se conoce como Moltbot se volvió viral en cuestión de semanas, empujado por una idea muy concreta: no ser otro chatbot que conversa, sino una herramienta que ejecuta acciones reales. Según contó TechCrunch, su promesa es directa: gestionar el calendario, enviar mensajes mediante tus aplicaciones habituales o incluso ayudarte con tareas como el check-in de un vuelo. Esa diferencia —pasar de “hablar sobre hacer” a “hacer”— es la que ha encendido la curiosidad de miles de personas.

La historia también suma puntos por lo humana que resulta. Detrás está Peter Steinberger, desarrollador austríaco conocido como @steipete, que venía de una etapa larga de desconexión creativa tras apartarse de su proyecto anterior. En su propio blog ha explicado cómo retomó el entusiasmo de “construir” al meterse de lleno en esta ola de IA agentica. Es un relato reconocible: a veces el mejor motor no es la ambición de mercado, sino la necesidad cotidiana de ordenar el caos digital propio. Continúa leyendo «Moltbot, el asistente de IA con alma de langosta que promete “hacer cosas” y plantea preguntas incómodas»

Moltbot: el asistente “agéntico” que cambió de nombre, no de riesgos

Publicado el 29 enero, 2026

por Natalia Polo

Hace apenas unos días, en redes técnicas empezó a circular con fuerza el nombre Clawdbot, un asistente de IA que prometía algo más ambicioso que responder preguntas: actuar. Según contaba Jake Peterson en Lifehacker, su propuesta era la de un asistente agéntico, es decir, un sistema al que no solo le pides consejos, sino que le delegas tareas reales en tu equipo, como ordenar el correo, escribir código o gestionar el calendario. La idea suena cómoda, casi como tener a alguien “haciendo recados” mientras tú trabajas.

El problema es que el éxito repentino no solo trae usuarios; también trae miradas. Y ahí llegó el giro: Clawdbot pasó a llamarse Moltbot tras una petición relacionada con marca registrada por parte de Anthropic, la empresa detrás de Claude y Claude Code, tal y como recogieron tanto Lifehacker como Laravel News. El equipo del proyecto explicó el cambio con tono juguetón en su cuenta oficial de X, mientras que su creador, Peter Steinberger, se mostró bastante menos entusiasmado en su cuenta personal: dio a entender que el cambio no fue una elección.

El nuevo nombre viene con metáfora incorporada: los crustáceos mudan el caparazón para crecer. De ahí que el “clawd” (garra) de antes ahora sea “molt” (muda). El “lobster” mascota también mudó identidad: de “Clawd” a “Molty”. Una mudanza estética que, como veremos, no toca lo esencial. Continúa leyendo «Moltbot: el asistente “agéntico” que cambió de nombre, no de riesgos»

OpenAI advierte: la prompt injection podría no tener “cura” definitiva en agentes de navegador como ChatGPT Atlas

Publicado el 31 diciembre, 2025

por Natalia Polo

OpenAI está poniendo el foco en un riesgo que, para los agentes de IA dentro del navegador, no es un detalle técnico sino un problema estructural: la prompt injection. Hablamos de instrucciones maliciosas escondidas dentro de contenido aparentemente normal, como un correo, una página web o un documento, que intentan “mandar” sobre el agente. La diferencia con los chatbots clásicos es clave: un chatbot responde, pero un agente de navegador actúa. Si puede leer tu correo, abrir documentos, navegar por servicios web y escribir con tus permisos, se convierte en un objetivo mucho más atractivo.

OpenAI describe que, en modo agente, ChatGPT Atlas “ve” las páginas y usa clics y pulsaciones de teclado igual que una persona. Esa comodidad también amplía la superficie de ataque: el agente trabaja dentro del mismo contexto que tú, con acceso a señales, sesiones y datos que un atacante querría secuestrar. Es como darle a alguien las llaves del coche para que te haga recados; si un tercero logra colarse en el asiento del copiloto y susurrarle direcciones falsas, el coche puede acabar en un destino inesperado. Continúa leyendo «OpenAI advierte: la prompt injection podría no tener “cura” definitiva en agentes de navegador como ChatGPT Atlas»

ChatGPT Atlas frente a los ataques de prompt injection: el nuevo frente de batalla en la seguridad de la IA

Publicado el 24 diciembre, 2025

por Natalia Polo

Los prompt injections se han convertido en una de las amenazas más persistentes y difíciles de mitigar en el campo de la inteligencia artificial, especialmente en los sistemas que operan como navegadores autónomos, capaces de leer e interpretar información en internet. OpenAI ha descrito esta técnica como uno de los «riesgos más significativos» para la seguridad de sus modelos, una amenaza que no puede eliminarse por completo, pero que exige medidas cada vez más sofisticadas para reducir su impacto.

Un prompt injection funciona como una especie de mensaje enmascarado dentro de contenido aparentemente inofensivo, como una página web, un documento o un fragmento de texto. A través de trucos como el uso de texto blanco sobre fondo blanco, fuentes de tamaño cero o texto fuera de los márgenes, el atacante puede introducir instrucciones ocultas que el modelo de IA puede interpretar como órdenes válidas, sin que el usuario lo haya solicitado. Esto puede llevar al sistema a ejecutar acciones no autorizadas, aprovechando sus permisos o capacidades. Continúa leyendo «ChatGPT Atlas frente a los ataques de prompt injection: el nuevo frente de batalla en la seguridad de la IA»

¿Qué es la inyección de prompt y por qué pone en riesgo a la inteligencia artificial?

Publicado el 14 julio, 2025

por Juan Diego Polo

Cada vez que interactuamos con un chatbot como ChatGPT, asumimos que hay una capa de seguridad que impide que la IA diga o haga cosas indebidas. Sin embargo, existe una técnica que desafía esa suposición y que ha generado una gran preocupación entre expertos en ciberseguridad: la inyección de prompt.

Esta técnica, tan ingeniosa como peligrosa, permite manipular modelos de lenguaje como si fueran títeres, alterando sus respuestas e incluso forzándolos a saltarse reglas. En este artículo te explico qué es, cómo funciona, casos reales y por qué deberías conocerla, aunque no seas programador.

Continúa leyendo «¿Qué es la inyección de prompt y por qué pone en riesgo a la inteligencia artificial?»

Así engañaron a ChatGPT para que entregara claves de activación de Windows

Publicado el 13 julio, 2025

por Juan Diego Polo

Un descubrimiento reciente ha vuelto a poner sobre la mesa una de las grandes preocupaciones en torno a la inteligencia artificial generativa: su facilidad para ser manipulada. Un hacker ético logró que ChatGPT revelara claves de activación de Windows 10, utilizando una técnica de ingeniería social tan ingeniosa como alarmante.

Continúa leyendo «Así engañaron a ChatGPT para que entregara claves de activación de Windows»