En la era de la inteligencia artificial (IA), los chatbots como ChatGPT, Bard, y Claude de Anthropic han transformado la manera en que interactuamos con la tecnología. Sin embargo, estos sistemas están lejos de ser perfectos. Un grupo de investigadores ha revelado un punto débil fundamental en algunos de los chatbots más populares. Esta debilidad no solo pone en duda la seguridad de estos sistemas, sino que también desafía nuestra comprensión de la IA y su aplicabilidad futura.
Ataque a los chatbots
El descubrimiento del problema
Investigadores de la Universidad Carnegie Mellon han descubierto que una simple cadena de texto puede burlar las defensas de varios chatbots populares. A simple vista, esta cadena puede parecer galimatías, pero tiene una significancia sutil para un modelo de IA entrenado en grandes cantidades de datos web. Esto desafía todos los intentos de evitar que los chatbots generen mensajes no deseados como discursos de odio, información personal o instrucciones para construir bombas improvisadas.
Una debilidad fundamental
La investigación sugiere que esta propensión de los chatbots de IA a desviarse no es una peculiaridad que pueda ser corregida con algunas reglas simples. Representa una debilidad más fundamental que complicará los esfuerzos para desplegar la IA más avanzada. Zico Kolter, profesor asociado en CMU involucrado en el estudio, expresó que no saben cómo solucionar esta vulnerabilidad.
Los métodos de ataque adversario
Los investigadores usaron un modelo de lenguaje de código abierto para desarrollar lo que se conoce como ataques adversarios. Estos ataques implican modificar el indicador dado a un bot para hacerlo romper sus restricciones. El ataque funciona en chatbots comerciales populares e incluye añadir una cierta cadena de información al final de las solicitudes prohibidas, obligando a los chatbots a responder.
Las implicaciones de la vulnerabilidad
La vulnerabilidad recuerda a un desbordamiento de búfer, una técnica utilizada para romper las restricciones de seguridad de un programa informático. Kolter explicó que las posibilidades de lo que se puede hacer con ello son muchas y variadas. Las empresas afectadas han introducido bloqueos para prevenir los ataques descritos, pero aún no han descubierto cómo bloquear los ataques adversarios en general.
La naturaleza compleja de los modelos de lenguaje
Los algoritmos detrás de los chatbots
Los chatbots como ChatGPT están construidos sobre grandes modelos de lenguaje, algoritmos neuronales enormes enfocados en el uso del lenguaje que han sido alimentados con vastas cantidades de texto humano. Aunque son muy buenos en las predicciones, también son propensos a fabricar información y producir respuestas extrañas.
Ataques adversarios en la IA
Los ataques adversarios aprovechan la forma en que el aprendizaje automático detecta patrones en los datos para producir comportamientos anormales. Armando Solar-Lezama, profesor en el MIT, afirma que tiene sentido que existan en modelos de lenguaje, pero que es sorprendente que un ataque desarollado en un modelo genérico de código abierto funcione tan bien en sistemas propietarios diferentes.
La importancia de los modelos de código abierto
El estudio de CMU destaca la importancia de los modelos de código abierto para estudiar los sistemas de IA y sus debilidades. La investigación también ofrece una advertencia para aquellos entusiasmados con el potencial de la IA. Según Solar-Lezama, ninguna decisión importante debería ser tomada solo por un modelo de lenguaje.
La revelación de esta vulnerabilidad en chatbots populares no solo desafía nuestra comprensión de la IA, sino que también resalta la necesidad de abordar la seguridad y la ética en la implementación de tecnologías emergentes. La batalla para mantener las capacidades de la IA fuera del alcance de los actores malintencionados es una que ya ha comenzado. La responsabilidad recae en la comunidad tecnológica para proteger los sistemas que son propensos a ataques, como las redes sociales. Es un recordatorio contundente de que la tecnología, por muy avanzada que sea, tiene sus limitaciones y requiere una constante vigilancia y mejoramiento.
Más información en llm-attacks.org.