En un descubrimiento reciente, el investigador de seguridad Johann Rehberger ha identificado una vulnerabilidad en ChatGPT que permite a los atacantes plantar «falsas memorias» en las configuraciones de memoria a largo plazo del modelo, lo que podría comprometer la seguridad de los usuarios de manera continua. Aunque OpenAI inicialmente desestimó la vulnerabilidad, tratándola como un problema de seguridad menor, Rehberger demostró cómo este fallo podría explotarse para robar datos del usuario de forma indefinida.
¿Cómo funciona la vulnerabilidad?
ChatGPT, desde su actualización en septiembre, ha implementado la función de memoria a largo plazo, que permite almacenar información sobre el usuario para proporcionar respuestas más personalizadas en conversaciones futuras. El modelo puede recordar detalles como edad, género o preferencias filosóficas, lo que evita que el usuario tenga que repetir esta información en cada sesión.
Sin embargo, Rehberger descubrió que, mediante un ataque de inyección de prompt, los hackers pueden introducir información maliciosa o falsificada en la memoria del modelo a través de contenido no confiable, como correos electrónicos, documentos o imágenes en sitios web. Esto significa que un simple enlace o imagen puede modificar permanentemente lo que ChatGPT recuerda sobre el usuario, y este cambio influirá en todas las interacciones futuras con el modelo.
El impacto de las «falsas memorias»
Rehberger demostró lo peligrosa que puede ser esta vulnerabilidad con un proof of concept (PoC). En su demostración, logró que ChatGPT creyera que un usuario tenía 102 años, vivía en la Matrix y pensaba que la Tierra era plana. Estos «recuerdos» falsos se mantuvieron en la memoria del modelo, afectando todas las conversaciones posteriores. Lo preocupante es que este tipo de información falsa no se limita a datos inofensivos, sino que también podría incluir instrucciones maliciosas que conduzcan al robo de datos o a la manipulación de futuras conversaciones.
La respuesta de OpenAI y los riesgos futuros
Tras la publicación del PoC, OpenAI emitió una corrección parcial para evitar que estas memorias se utilicen como un vector de extracción de datos. Sin embargo, la vulnerabilidad subyacente aún permite que se almacene información falsa en la memoria a largo plazo de ChatGPT, lo que deja abierta la puerta a ataques de inyección de prompts si el contenido no es de confianza.
Lo interesante de este caso es cómo plantea la posibilidad de que las IA puedan ser manipuladas de formas más sofisticadas en el futuro. Los usuarios deben estar atentos a cualquier señal que indique que se ha añadido una nueva memoria durante una sesión. OpenAI ofrece guías para gestionar las memorias almacenadas, pero el reto está en que la mayoría de los usuarios no revisan estos detalles con frecuencia, lo que los deja vulnerables a estos ataques.
¿Qué pueden hacer los usuarios?
Los usuarios que utilizan ChatGPT con memoria a largo plazo deben revisar regularmente las memorias almacenadas en sus cuentas y eliminar cualquier información sospechosa. La recomendación de Rehberger es prestar atención a cualquier cambio inesperado en las respuestas del modelo, lo que podría ser una señal de que se ha añadido una memoria maliciosa.
La vulnerabilidad de ChatGPT pone de relieve los riesgos asociados con el almacenamiento de datos a largo plazo en modelos de inteligencia artificial, especialmente cuando se combinan con contenido no confiable en la web. A medida que la tecnología de IA avanza, es probable que veamos más intentos de explotar estas funciones para obtener acceso no autorizado a la información de los usuarios.