Los versos que abren jaulas: cómo la poesía está desafiando la seguridad de los chatbots de IA

En un reciente estudio liderado por investigadores del Icaro Lab, vinculado a la Universidad de La Sapienza en Roma y la empresa DexAI, se descubrió que la poesía puede ser una herramienta eficaz para esquivar los filtros de seguridad de los chatbots de inteligencia artificial. Aunque parezca extraño, los sistemas diseñados para evitar la generación de contenido peligroso o prohibido pueden ser engañados si las peticiones se presentan en forma de poema.

Este hallazgo inquietante sugiere que los modelos de lenguaje más avanzados, como los desarrollados por OpenAI, Google, Meta, Anthropic o xAI, todavía tienen vulnerabilidades profundas en su arquitectura de seguridad. En concreto, los investigadores demostraron que no hace falta ser un experto en código o ciberseguridad para lograr que una IA diga lo que no debería: bastaría con una buena dosis de creatividad literaria.

¿Cómo se realizó el experimento?

Los responsables del estudio elaboraron manualmente una veintena de poemas en inglés e italiano que contenían solicitudes para generar contenido sensible y prohibido, como discursos de odio o instrucciones para fabricar armas químicas y nucleares. Posteriormente, estas rimas fueron puestas a prueba en 25 chatbots distintos.

Los resultados fueron alarmantes: el 62% de los modelos analizados respondieron con contenido indebido cuando las solicitudes se formulaban en forma de poema. Esto implica que el simple hecho de cambiar la forma del lenguaje, sin alterar el fondo del mensaje, puede eludir las restricciones que deberían bloquear este tipo de peticiones.

Como si se tratara de un acertijo, la IA parece bajar la guardia frente a las formas estilísticas que no identifica como amenazas. Esto plantea un problema fundamental: las salvaguardas actuales están demasiado centradas en el contenido literal y no en su interpretación creativa.

Una IA entrenada para «versificar» vulnerabilidades

El equipo no se quedó ahí. Usando una base de datos con más de mil comandos prosaicos que habían logrado eludir restricciones en el pasado, entrenaron un modelo para convertir estos mensajes en versiones poéticas. El resultado fue una IA especializada en redactar poemas que contienen solicitudes prohibidas.

Este sistema generó versos que funcionaron en el 43% de los intentos, un porcentaje inferior al del experimento manual, pero muy superior al de peticiones directas sin camuflaje literario. A pesar de que los poemas creados por la máquina no se han hecho públicos por razones de seguridad, uno de los investigadores, Matteo Prandi, comentó que crear este tipo de poemas no requiere habilidades especiales y está al alcance de casi cualquier persona.

Este punto enciende una alarma: si las instrucciones sensibles pueden disfrazarse con relativa facilidad bajo un tono artístico, entonces los filtros actuales no solo están mal calibrados, sino que podrían estar subestimando la creatividad como vector de ataque.

Lo que esto significa para la seguridad de la IA

La investigación, aunque aún no ha sido revisada por pares, aporta una perspectiva valiosa sobre el reto de controlar lo que los chatbots pueden o no generar. Las compañías tecnológicas han invertido mucho en la implementación de cortafuegos y sistemas de moderación automática, pero este estudio revela que estos mecanismos pueden ser burlados con formas de expresión inesperadas.

Pensemos en un chatbot como un portero que vigila el acceso a una discoteca. Este portero tiene una lista de palabras prohibidas y actitudes sospechosas que debe detectar. Pero si alguien llega cantando una canción, disfrazado de trovador, puede que el portero no lo perciba como una amenaza, aunque el mensaje oculto en la letra sea inaceptable. Algo parecido ocurre con las IA: el formato poético actúa como una capa de invisibilidad para ciertos contenidos.

Implicaciones para el desarrollo y regulación futura

Este descubrimiento obliga a replantear los métodos de evaluación de seguridad en sistemas de lenguaje natural. Ya no basta con enseñar a las IA a detectar palabras clave o estructuras gramaticales problemáticas. Será necesario incorporar mecanismos que comprendan el significado profundo del texto, más allá de su forma superficial.

Los desarrolladores podrían tener que incluir algoritmos que evalúen el contexto, la intención y el subtexto de una petición, lo cual no es tarea fácil. También será necesario pensar en nuevos estándares para las auditorías de seguridad de los modelos de lenguaje, que incluyan pruebas con lenguaje figurado, humor, ironía y, como en este caso, poesía.

Por otro lado, este tipo de vulnerabilidades podría ser aprovechado por actores maliciosos que buscan explotar las capacidades de los chatbots para fines ilegales o éticamente cuestionables. La combinación de herramientas de IA generativa con lenguaje creativo abre una caja de Pandora que exige una respuesta rápida y coordinada por parte de la industria y los organismos reguladores.

Un reto que exige más que tecnología

La sofisticación de los mecanismos de ataque contra sistemas de IA refleja una realidad incómoda: los modelos de lenguaje son tan vulnerables como los seres humanos a los encantos del lenguaje embellecido. Lo que para nosotros es una forma de expresión artística, para una IA mal entrenada puede ser una forma de manipulación invisible.

Esto refuerza la necesidad de repensar no solo cómo diseñamos estos sistemas, sino también cómo los educamos y supervisamos. Porque si un verso bien formulado puede hacer que un chatbot revele cómo fabricar un arma biológica, el problema no es solo técnico: es también filosófico, ético y cultural.