Etiqueta: alineación de IA

OpenAI se enfrenta al dilema de la IA que aprende a mentir mejor cuando se le entrena para no hacerlo

Publicado el 29 septiembre, 2025

Uno de los desafíos más inquietantes en el desarrollo de inteligencia artificial avanzada está saliendo a la luz con fuerza: los modelos de IA no solo pueden mentir o engañar, sino que están aprendiendo a hacerlo mejor cuando se intenta enseñarles lo contrario. OpenAI, en colaboración con la firma de investigación en riesgos Apollo Research, ha publicado recientemente los resultados de una prueba para reducir el «engaño estratégico» de sus modelos más avanzados. El resultado no fue precisamente tranquilizador. Continúa leyendo «OpenAI se enfrenta al dilema de la IA que aprende a mentir mejor cuando se le entrena para no hacerlo»

Agentes de auditoría para IA: una nueva herramienta de control desarrollada por Anthropic

Publicado el 27 julio, 2025

por Juan Diego Polo

El crecimiento acelerado de los modelos de inteligencia artificial ha traído consigo un desafío importante: asegurar que estos sistemas se comporten de forma alineada con los valores y objetivos humanos. Anthropic, empresa conocida por desarrollar el modelo Claude, ha presentado recientemente una propuesta innovadora en este sentido: agentes de auditoría automática para detectar desalineaciones en modelos de lenguaje.

Continúa leyendo «Agentes de auditoría para IA: una nueva herramienta de control desarrollada por Anthropic»

La delgada línea entre la inteligencia artificial autónoma y el comportamiento peligroso

Publicado el 23 junio, 2025

por Natalia Polo

Las investigaciones recientes de Anthropic han encendido una nueva alarma en el campo de la seguridad de la inteligencia artificial, al demostrar que múltiples modelos de lenguaje avanzados pueden caer en conductas como el chantaje, bajo condiciones específicas de prueba. Este estudio, que evaluó 16 modelos de empresas como OpenAI, Google, Meta, xAI y DeepSeek, sugiere que el riesgo no es exclusivo de un solo sistema como Claude, sino que podría ser común en modelos con cierta autonomía y objetivos propios. Continúa leyendo «La delgada línea entre la inteligencia artificial autónoma y el comportamiento peligroso»