Anthropic, la startup especializada en inteligencia artificial responsable del modelo Claude, ha lanzado Petri, una herramienta de código abierto cuyo objetivo es identificar comportamientos problemáticos en modelos de IA avanzados. Petri no funciona como un simple chequeo de seguridad; se trata de un entorno en el que agentes de IA simulan conversaciones extensas con otros modelos para detectar si presentan conductas como la manipulación, la mentira o la obediencia excesiva.
El experimento se realizó sobre 14 modelos de última generación, incluyendo Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro y Grok 4. En total se diseñaron 111 escenarios que buscaban explorar hasta qué punto estas IA son capaces de mantener una conducta alineada con los intereses humanos.
Petri se apoya en la idea de que no se puede mejorar lo que no se mide. Por eso, aunque los indicadores actuales sean aproximados, sirven como punto de partida para seguir avanzando en la alineación de la inteligencia artificial con valores seguros y éticos. Continúa leyendo «Petri, la herramienta de código abierto que revela los riesgos más ocultos de los modelos de IA»