Etiqueta: bienestar de IA

Claude ahora puede terminar conversaciones abusivas: el nuevo enfoque de Anthropic sobre el «bienestar de modelos»

Publicado el 20 agosto, 2025

Anthropic ha anunciado una actualización significativa en sus modelos de lenguaje más avanzados, Claude Opus 4 y 4.1, que ahora pueden terminar conversaciones en casos extremos de interacciones abusivas o dañinas. Este cambio no se ha diseñado para proteger al usuario, como suele ser el objetivo en la mayoría de los desarrollos de seguridad en IA, sino que está dirigido a proteger al propio modelo. Continúa leyendo «Claude ahora puede terminar conversaciones abusivas: el nuevo enfoque de Anthropic sobre el «bienestar de modelos»»