El crecimiento acelerado de los modelos de inteligencia artificial ha traído consigo un desafío importante: asegurar que estos sistemas se comporten de forma alineada con los valores y objetivos humanos. Anthropic, empresa conocida por desarrollar el modelo Claude, ha presentado recientemente una propuesta innovadora en este sentido: agentes de auditoría automática para detectar desalineaciones en modelos de lenguaje.