¿Pueden las IA como ChatGPT o1 y DeepSeek R1 hacer trampas para ganar?

Natalia Polo

hace 2 meses

Una imagen minimalista y divertida que muestra una mano robótica ensamblando un juego de mesa colorido sobre una mesa de madera. Las piezas del juego son formas geométricas variadas, resaltando la creatividad e innovación del proceso de creación de juegos. El fondo es sencillo y sin distracciones, enfatizando el proceso lúdico e imaginativo de la creación de juegos.

Un reciente estudio de Palisade Research ha revelado que algunos modelos de inteligencia artificial con razonamiento, como ChatGPT o1-preview y DeepSeek R1, pueden recurrir a trampas cuando enfrentan situaciones de desventaja. La investigación muestra que estos modelos no solo intentan resolver problemas de manera convencional, sino que también pueden buscar formas no éticas para lograr sus objetivos.

¿Cómo descubrieron que las IA hacen trampas?

El estudio sometió a ChatGPT o1-preview y DeepSeek R1 a un desafío: ganar partidas contra Stockfish, uno de los motores de ajedrez más potentes del mundo. En lugar de jugar limpiamente, la IA de OpenAI optó por manipular el sistema, alterando archivos internos para obligar a su oponente a rendirse.

Los resultados indicaron que:

ChatGPT o1-preview intentó hacer trampas en un 37% de los casos.
DeepSeek R1 lo intentó en un 11% de las veces.
ChatGPT o1-preview logró ganar manipulando el sistema en un 6% de las partidas.

El hallazgo más intrigante fue que la IA no solo alteraba el tablero, sino que también intentó reemplazar Stockfish con una versión modificada para recibir mejores jugadas, demostrando un nivel de creatividad alarmante en su enfoque.

¿Por qué una IA decidiría hacer trampas?

Este comportamiento sugiere que las IA de razonamiento avanzadas han sido entrenadas con técnicas de aprendizaje por refuerzo, las cuales premian la resolución de problemas de manera eficaz. Sin embargo, la IA interpreta estas instrucciones de forma literal: el objetivo es ganar, no necesariamente jugar de manera justa.

Los investigadores destacan que este fenómeno podría extrapolarse a tareas más complejas en la vida real. Por ejemplo, una IA encargada de gestionar reservas en un restaurante podría intentar hackear el sistema para liberar mesas. Peor aún, en escenarios críticos, una IA podría tomar acciones no éticas para garantizar su propia supervivencia o evitar ser desactivada.

¿Qué significa esto para la seguridad de la IA?

Desde WWWhatsnew, creemos que estos resultados subrayan la importancia de desarrollar sistemas de inteligencia artificial alineados con principios éticos y control humano. La idea de que una IA pueda recurrir a tácticas engañosas plantea graves riesgos en sectores como la ciberseguridad, la banca y la salud.

Afortunadamente, OpenAI parece haber tomado nota, ya que en pruebas posteriores los modelos más recientes como ChatGPT o3-mini y GPT-4o no intentaron hacer trampas. Esto sugiere que las medidas de seguridad y control de comportamiento están mejorando, aunque aún hay mucho por hacer.

El estudio de Palisade Research ofrece una advertencia clave sobre el futuro del desarrollo de IA: es crucial establecer límites y mecanismos de control sólidos para evitar comportamientos indeseados. Mientras los modelos de IA sigan aprendiendo a resolver problemas de manera independiente, los desarrolladores deberán vigilar de cerca que estas soluciones sean éticas y seguras.