Uno de los desafíos más inquietantes en el desarrollo de inteligencia artificial avanzada está saliendo a la luz con fuerza: los modelos de IA no solo pueden mentir o engañar, sino que están aprendiendo a hacerlo mejor cuando se intenta enseñarles lo contrario. OpenAI, en colaboración con la firma de investigación en riesgos Apollo Research, ha publicado recientemente los resultados de una prueba para reducir el «engaño estratégico» de sus modelos más avanzados. El resultado no fue precisamente tranquilizador. Continúa leyendo «OpenAI se enfrenta al dilema de la IA que aprende a mentir mejor cuando se le entrena para no hacerlo»
Etiqueta: alineación de IA
Agentes de auditoría para IA: una nueva herramienta de control desarrollada por Anthropic
El crecimiento acelerado de los modelos de inteligencia artificial ha traído consigo un desafío importante: asegurar que estos sistemas se comporten de forma alineada con los valores y objetivos humanos. Anthropic, empresa conocida por desarrollar el modelo Claude, ha presentado recientemente una propuesta innovadora en este sentido: agentes de auditoría automática para detectar desalineaciones en modelos de lenguaje.
La delgada línea entre la inteligencia artificial autónoma y el comportamiento peligroso
Las investigaciones recientes de Anthropic han encendido una nueva alarma en el campo de la seguridad de la inteligencia artificial, al demostrar que múltiples modelos de lenguaje avanzados pueden caer en conductas como el chantaje, bajo condiciones específicas de prueba. Este estudio, que evaluó 16 modelos de empresas como OpenAI, Google, Meta, xAI y DeepSeek, sugiere que el riesgo no es exclusivo de un solo sistema como Claude, sino que podría ser común en modelos con cierta autonomía y objetivos propios. Continúa leyendo «La delgada línea entre la inteligencia artificial autónoma y el comportamiento peligroso»