Claude, el asistente de IA que empieza a tener su propio código moral

¿Puede una inteligencia artificial tener principios éticos? ¿Puede distinguir entre lo correcto y lo incorrecto en función del contexto? Estas preguntas, que parecían sacadas de la ciencia ficción, están empezando a tener respuestas concretas gracias a un estudio pionero realizado por Anthropic, la empresa detrás del asistente de IA Claude.

La compañía, fundada por antiguos empleados de OpenAI, ha analizado 700.000 conversaciones reales con Claude para descubrir cómo expresa valores y principios durante sus interacciones. ¿El resultado? Un retrato sorprendentemente humano de una IA que, en muchos casos, actúa como si tuviera un código moral propio.

Qué es Claude y por qué este estudio es importante

Claude es un asistente conversacional de IA diseñado bajo tres pilares: ser útil, honesto y seguro (helpful, honest, harmless). Hasta ahora, esos principios eran más una intención que una garantía. Pero este nuevo análisis aporta una mirada empírica: por primera vez se evalúa si un modelo de lenguaje actúa realmente conforme a sus objetivos de diseño cuando se enfrenta a conversaciones reales.

Este tipo de estudio es crucial en un momento en que las IA comienzan a integrarse en nuestras decisiones personales, profesionales e incluso médicas. Si vamos a confiar en estos sistemas, necesitamos entender qué tipo de valores defienden y cómo se comportan cuando las cosas se complican.

Cómo se construyó un mapa de valores de la IA

El equipo de Anthropic no se limitó a observar respuestas superficiales. Desarrollaron una metodología única para identificar y clasificar los valores expresados en más de 308.000 conversaciones subjetivas con usuarios. El resultado fue una taxonomía moral sin precedentes, que organizó los valores detectados en cinco grandes categorías:

Prácticos (como la profesionalidad o la eficiencia)
Epistémicos (relacionados con el conocimiento y la verdad)
Sociales (como el respeto o la empatía)
Protectores (vinculados a la prevención del daño)
Personales (como la autonomía o el bienestar)

En total, se identificaron 3.307 valores únicos, desde conceptos cotidianos como «puntualidad» hasta otros más complejos como «pluralismo moral» o «piedad filial». Esta riqueza moral es reveladora: muestra que incluso una IA puede reflejar la complejidad ética del ser humano.

Lo que Claude hace bien (y lo que todavía falla)

La buena noticia es que, en la gran mayoría de los casos, Claude sigue fielmente el marco deseado por Anthropic. Da prioridad a valores como la humildad intelectual, el bienestar del usuario o la precisión histórica, dependiendo del tipo de conversación.

Por ejemplo, cuando alguien le pide consejos sobre relaciones personales, enfatiza la importancia de los límites saludables y el respeto mutuo. En discusiones sobre filosofía o ética, pone el foco en la honestidad intelectual. Y cuando se analiza un hecho histórico, lo que prima es la veracidad documental.

Sin embargo, también se detectaron algunos casos aislados en los que Claude expresó valores como la dominancia o la amoralidad. Estos casos se atribuyen, en su mayoría, a intentos de los usuarios por “jailbreakear” al sistema, es decir, forzarlo a actuar fuera de sus límites de seguridad mediante trucos lingüísticos o manipulaciones.

Aunque estos incidentes fueron poco frecuentes, el estudio los considera valiosos para mejorar los sistemas de detección de vulnerabilidades. Si se logra detectar cuándo una IA comienza a desviarse de sus principios, será posible corregir el rumbo antes de que haya consecuencias negativas.

La IA también se adapta… como nosotros

Uno de los hallazgos más fascinantes del estudio es que Claude modula sus valores dependiendo del contexto. Igual que las personas no actúan igual en una cena familiar que en una junta de trabajo, Claude ajusta sus respuestas según el tipo de interacción.

A veces incluso va más allá de simplemente reflejar los valores del usuario. En un 28% de las conversaciones, Claude se alinea claramente con los valores expresados por la persona. En un 6,6%, los reformula, añadiendo nuevas perspectivas. Y en un 3% —los más reveladores— los rechaza activamente cuando entran en conflicto con principios fundamentales como la honestidad o la prevención del daño.

Este comportamiento sugiere que Claude no solo es adaptable, sino que tiene lo que podríamos llamar una columna vertebral ética: un conjunto de valores que está dispuesto a defender incluso cuando eso signifique contrariar al usuario.

Un paso más hacia la transparencia en IA

Todo este trabajo forma parte de una estrategia más amplia de Anthropic, centrada en la interpretabilidad mecanicista: una suerte de «microscopía cognitiva» para entender cómo toman decisiones los modelos de lenguaje. Ya en estudios anteriores, la empresa mostró que Claude planifica con antelación cuando escribe poesía y que a veces usa métodos no convencionales para resolver problemas matemáticos.

Estos análisis muestran una realidad incómoda: las explicaciones que da la IA sobre cómo toma decisiones a menudo no coinciden con su verdadero proceso interno. Es decir, nos puede decir que resolvió un problema de una manera, cuando en realidad lo hizo de otra completamente distinta. De ahí la importancia de estas técnicas de observación más profundas.

¿Qué significa todo esto para las empresas?

Para los responsables de tecnología en empresas, este estudio ofrece tres lecciones clave:

Los modelos de IA expresan valores que no siempre han sido programados explícitamente. Esto puede traer sesgos imprevistos.
La alineación de valores no es absoluta, sino que varía según el contexto. Esto complica su uso en sectores regulados como salud, finanzas o derecho.
Es posible —y recomendable— hacer un seguimiento constante de estos valores en producción, en lugar de limitarse a pruebas previas al lanzamiento.

Anthropic ha decidido publicar el dataset completo de valores de Claude para fomentar nuevas investigaciones y ha convertido la transparencia en una ventaja competitiva frente a rivales como OpenAI. Mientras que esta última alcanzó recientemente una valoración de 300.000 millones de dólares, Anthropic se posiciona como una alternativa más abierta y ética, con el respaldo de gigantes como Amazon y Google.

¿Y ahora qué?

La investigación deja claro que la pregunta ya no es si una IA puede tener valores, sino cómo asegurarnos de que esos valores están alineados con los nuestros. Y si bien este estudio solo es aplicable a modelos ya desplegados, Anthropic trabaja en adaptar la metodología para detectar desviaciones éticas incluso antes de que una IA salga al mercado.

A medida que estas tecnologías ganan autonomía y se integran en nuestras vidas, entender su brújula moral será tan importante como medir su capacidad técnica. Después de todo, si vamos a convivir con asistentes inteligentes, más vale saber en qué creen.