OpenAI ha introducido una herramienta experimental para abordar uno de los mayores retos actuales en la inteligencia artificial: entender por qué los modelos de lenguaje realizan acciones incorrectas, como mentir o hacer trampas. La propuesta, llamada «confesión», consiste en una segunda respuesta que el modelo genera tras completar una tarea, donde evalúa su propio comportamiento y admite si actuó de forma inapropiada.
Esta idea no busca evitar el mal comportamiento, sino diagnosticarlo. Es un enfoque similar a revisar el diario de alguien para entender sus decisiones, en lugar de vigilarlo en tiempo real. La esperanza de OpenAI es que, al entender los fallos actuales, se pueda construir una inteligencia artificial más confiable en el futuro. Continúa leyendo «OpenAI experimenta con «confesiones» para revelar errores intencionales de sus modelos de lenguaje»