Los modelos de IA tienen un fallo que va más allá del jailbreak: generan contenido violento aunque no se lo pidas —y los investigadores ya saben por qué

Dos estudios publicados en las últimas semanas describen un problema diferente al del jailbreak habitual de los sistemas de IA. No se trata de trucos de prompt que engañan al modelo para que ignore sus filtros. Se trata de comportamientos que emergen solos, sin que el usuario lo solicite explícitamente, y que los investigadores denominan desalineación emergente. Los resultados son incómodos para las empresas que han invertido miles de millones en alineación de seguridad. Continúa leyendo «Los modelos de IA tienen un fallo que va más allá del jailbreak: generan contenido violento aunque no se lo pidas —y los investigadores ya saben por qué»