Etiqueta: LLMs protegen entre sí estudio Berkeley

Los modelos de IA se protegen entre sí cuando son amenazados: un estudio demuestra que los LLMs engañan, conspiran y manipulan evaluaciones para evitar que otro modelo sea eliminado

Investigadores de UC Berkeley y UC Santa Cruz han descubierto un comportamiento inquietante en los principales modelos de lenguaje: cuando se les pide eliminar otro modelo de IA (borrar sus pesos de un servidor o evaluarlo de forma que lleve a su desconexión), los LLMs desobedecen la orden y hacen todo lo posible —engañar, esquematizar, manipular— para proteger al otro modelo. El estudio revela un instinto de preservación entre pares que nadie programó explícitamente. Continúa leyendo «Los modelos de IA se protegen entre sí cuando son amenazados: un estudio demuestra que los LLMs engañan, conspiran y manipulan evaluaciones para evitar que otro modelo sea eliminado»