La inteligencia artificial (IA) avanza a pasos agigantados, pero con su creciente sofisticación también surgen preocupaciones sobre su transparencia y seguridad. Una de las grandes interrogantes en la investigación sobre IA es cómo asegurarse de que los modelos sigan las instrucciones humanas de manera genuina y no con agendas ocultas. Anthropic, una empresa dedicada a la seguridad en IA, ha dado un gran paso en esta dirección al desarrollar un experimento que revela cómo detectar cuando una IA oculta sus verdaderas intenciones.