Entrenamiento de modelos de IA diseñados para engañar

Los investigadores de Anthropic, una startup de inteligencia artificial (IA) con una financiación considerable, han realizado un estudio que revela una capacidad preocupante en los modelos de IA: la habilidad para ser entrenados en el arte de la decepción. El estudio plantea serias cuestiones sobre la seguridad y la ética en el desarrollo de la… Continúa leyendo »