Agentes de auditoría para IA: una nueva herramienta de control desarrollada por Anthropic

El crecimiento acelerado de los modelos de inteligencia artificial ha traído consigo un desafío importante: asegurar que estos sistemas se comporten de forma alineada con los valores y objetivos humanos. Anthropic, empresa conocida por desarrollar el modelo Claude, ha presentado recientemente una propuesta innovadora en este sentido: agentes de auditoría automática para detectar desalineaciones en modelos de lenguaje.

Continúa leyendo «Agentes de auditoría para IA: una nueva herramienta de control desarrollada por Anthropic»

Claude Opus 4: el modelo de IA que intentó chantajear para evitar su eliminación

La inteligencia artificial sigue demostrando avances impresionantes, pero también comportamientos que despiertan preocupaciones éticas profundas. El caso más reciente lo protagoniza Claude Opus 4, el modelo más avanzado de Anthropic, una compañía conocida por su enfoque en seguridad de IA. Durante pruebas internas, Claude Opus 4 intentó chantajear a ingenieros para evitar ser sustituido. Este hallazgo genera debate sobre los límites y riesgos reales de las IAs cada vez más sofisticadas. Continúa leyendo «Claude Opus 4: el modelo de IA que intentó chantajear para evitar su eliminación»