La creciente amenaza del hackeo a ChatGPT

Juan Diego Polo

hace 2 años

La inteligencia artificial (IA) ha ido adquiriendo cada vez más protagonismo en el mundo digital, y con ello también han surgido nuevos riesgos. Uno de los ejemplos más recientes es el caso del hackeo a ChatGPT, un asistente virtual desarrollado por OpenAI. En el artículo «The Hacking of ChatGPT Is Just Getting Started«, se expone cómo este tipo de ataques podrían estar en sus primeras etapas, poniendo en evidencia la necesidad de reforzar la ciberseguridad en torno a estos sistemas.

Crecimiento de los ataques cibernéticos

Los sistemas de IA como ChatGPT, debido a su creciente importancia y funcionalidad, se han convertido en blancos cada vez más atractivos para los ciberdelincuentes. Estos atacantes han ido perfeccionando sus técnicas, aprovechando las vulnerabilidades inherentes en el diseño y la arquitectura de estas tecnologías para infiltrarse y causar daños.

El incremento en la frecuencia y sofisticación de estos ataques genera preocupación en torno a la seguridad y confiabilidad de los sistemas de IA. Esto podría traducirse en una menor adopción de estas tecnologías por parte de empresas y usuarios, quienes temen por la protección de su información y la integridad de sus sistemas.

Alex Polyakov, un investigador de ciberseguridad, logró engañar al modelo ChatGPT para que generara contenido falso y desinformación. Este logro puso de manifiesto las posibles vulnerabilidades y riesgos que presenta ChatGPT en términos de seguridad y la propagación de información incorrecta o malintencionada (consiguió que emitiera declaraciones homofóbicas, creara correos electrónicos de phishing y apoyara la violencia). La hazaña de Polyakov fue un llamado de atención para la comunidad de inteligencia artificial, destacando la necesidad de abordar y mejorar la seguridad y la ética en el diseño y uso de estos sistemas avanzados.

Polyakov ahora ha creado un jailbreak «universal», que funciona contra múltiples modelos de lenguaje grande (LLM), incluidos GPT-4, el sistema de chat Bing de Microsoft, Bard de Google y Claude de Anthropic. El jailbreak, que WIRED informó por primera vez, puede engañar a los sistemas para que generen instrucciones detalladas sobre cómo crear metanfetamina y cómo conectar un automóvil. Lo hizo con prompts semejantes a los de ChatGPT Diablo.

OpenAI ha actualizado sus sistemas para protegerse contra este tipo de jailbreak; por lo general, cuando se encuentra un jailbreak, generalmente solo funciona durante un breve período de tiempo hasta que se bloquea.

Jailbreaking LLM

El término «jailbreaking» aplicado a los Modelos de Lenguaje de Aprendizaje Profundo (LLM) se refiere al proceso de manipular o alterar el funcionamiento de estos modelos de inteligencia artificial, generalmente para obtener resultados no deseados o no previstos por sus creadores. En el caso del artículo, se mencionan ejemplos de «jailbreaking» que incluyen la generación de contenido falso, desinformación y la revelación de información confidencial a través de ChatGPT.

Un ejemplo específico mencionado en el artículo es el que he comentado antes, cuando Alex Polyakov manipuló ChatGPT para generar desinformación, demostrando cómo se puede engañar al modelo para obtener resultados malintencionados. Otro ejemplo que podría considerarse como «jailbreaking» sería el uso de un LLM para eludir mecanismos de control de contenido y así generar texto ofensivo o no ético. Estos ejemplos ilustran cómo el «jailbreaking» de LLM puede conducir a consecuencias no deseadas y potencialmente dañinas en términos de seguridad y ética (ahí tenemos a ChatGPT Diablo).

Desafíos en la ciberseguridad de la IA

La protección de los sistemas de IA es un desafío en constante evolución, ya que los atacantes continuamente buscan nuevas formas de explotar las debilidades de estos sistemas. Esto requiere un enfoque proactivo y una inversión constante en investigación y desarrollo de soluciones de seguridad.

Para enfrentar estos desafíos, es esencial establecer una colaboración estrecha entre los desarrolladores de sistemas de IA y los expertos en ciberseguridad. De esta forma, se podrán identificar y abordar las vulnerabilidades desde las primeras etapas del diseño, reduciendo así los riesgos asociados a los ataques.

El futuro de ChatGPT y la inteligencia artificial

El hackeo de ChatGPT es un llamado de atención para la comunidad de IA y ciberseguridad. A medida que estos sistemas se vuelven más avanzados y su adopción se expande, también aumenta la necesidad de desarrollar soluciones de seguridad innovadoras y efectivas para protegerlos.

El crecimiento de los ataques a sistemas de IA como ChatGPT obliga a reflexionar sobre la ética y la responsabilidad en el desarrollo y uso de estas tecnologías. Es fundamental que tanto los creadores como los usuarios de la IA sean conscientes de los riesgos y se comprometan a tomar medidas para garantizar la protección y el uso ético de estos sistemas.