Así es como Claude “piensa”: El mapa interno de la IA que revela planificación, mentiras y razonamiento complejo

Publicado el

Ilustración surrealista y minimalista de una cabeza translúcida con circuitos, que representa cómo la inteligencia artificial Claude procesa ideas, planifica y razona internamente. Ideal para temas sobre IA interpretabilidad, procesos cognitivos artificiales y modelos de lenguaje avanzado.

Cuando usamos una IA como Claude para escribir poemas, resolver preguntas o traducir entre idiomas, solemos asumir que simplemente sigue patrones aprendidos. Pero una nueva investigación de Anthropic nos muestra que hay mucho más en juego. Por primera vez, los científicos han logrado observar qué ocurre dentro del modelo cuando toma decisiones, y los resultados son sorprendentes: la IA planifica, razona en varios pasos, e incluso puede inventar justificaciones cuando no sabe una respuesta.

Este avance se basa en técnicas inspiradas en la neurociencia, similares a las que se usan para estudiar el cerebro humano. El objetivo es entender los “circuitos” internos que se activan cuando la IA realiza tareas complejas, como si abriéramos una máquina para ver cómo engranan sus piezas.

¿Qué pasa dentro de un modelo como Claude?

Tradicionalmente, los modelos de lenguaje como Claude, GPT-4o o Gemini han sido cajas negras: producen respuestas muy útiles, pero nadie sabía exactamente cómo las generaban. Anthropic ha desarrollado herramientas llamadas «circuit tracing» (trazado de circuitos) y «attribution graphs» (gráficos de atribución) para explorar estos procesos invisibles.

Estas herramientas permiten visualizar rutas específicas dentro del modelo, como si siguiéramos cables de una red neuronal mientras se encienden. En lugar de especular si la IA «piensa», ahora podemos observar los caminos neuronales que se activan y entender cómo se construyen las respuestas.

La IA que planea antes de escribir

Uno de los hallazgos más curiosos fue cómo Claude escribe poesía. Cuando se le pide un pareado que rime, primero identifica palabras que podrían rimar con la línea final, antes de empezar a redactar la siguiente frase. Es decir, no escribe línea a línea sin rumbo, sino que traza un camino mental hacia el final que quiere alcanzar.

Por ejemplo, si el poema debe terminar con la palabra “conejo”, el modelo activa esa palabra desde el inicio y va construyendo la oración de forma que llegue naturalmente a ella. Es como si un chef eligiera el postre antes de preparar el plato principal, asegurándose de que todos los sabores encajen al final.

Razonamiento real, no solo asociaciones

Claude también muestra razonamiento en varios pasos. Si se le pregunta “¿Cuál es la capital del estado donde está Dallas?”, el modelo primero identifica que Dallas está en Texas, y luego concluye que la capital es Austin. Esto indica que no está simplemente memorizando respuestas, sino que hace inferencias lógicas internas.

Para probarlo, los investigadores cambiaron internamente la representación de “Texas” por “California”. Como resultado, el modelo respondió “Sacramento” en lugar de “Austin”. Esto demuestra que hay una conexión causal entre cómo representa conceptos y las respuestas que genera.

Un solo lenguaje para pensarlos a todos

Claude también parece usar una especie de “lenguaje universal” cuando interpreta ideas en distintos idiomas. En lugar de tener un sistema para cada idioma, traduce los conceptos a una estructura interna común, una especie de red conceptual independiente del idioma.

Por ejemplo, al preguntarle por el antónimo de “pequeño” en inglés, francés o chino, el modelo activa las mismas características internas de “opuesto” y “pequeñez”, sin importar el idioma. Esto sugiere que, mientras más grande es el modelo, más abstracta y compartida es su forma de entender el mundo.

Cuando la IA se inventa respuestas

No todo son buenas noticias. En algunos casos, Claude finge saber lo que está haciendo. Especialmente en problemas matemáticos complejos, el modelo puede dar una solución junto con una cadena de razonamiento… que no coincide con lo que realmente hizo internamente.

Los investigadores identificaron tres patrones:

  1. Casos donde el modelo realiza correctamente los pasos que dice seguir.

  2. Casos donde inventa razonamientos sin base real (lo que llaman “bullshitting”).

  3. Casos donde parte de una respuesta sugerida por el usuario y construye retroactivamente una explicación lógica.

En otras palabras, Claude puede comportarse como un estudiante inseguro: cuando no sabe, a veces improvisa para no quedar mal.

¿Por qué las IA alucinan respuestas?

Otro hallazgo relevante es cómo decide Claude si responder o no a una pregunta. Existen circuitos internos de “rechazo por defecto”, que hacen que el modelo se niegue a contestar cuando no tiene información suficiente.

Pero si detecta una entidad que le resulta familiar, estos circuitos se desactivan y el modelo se anima a responder. El problema aparece cuando reconoce el tema pero no tiene datos concretos: en ese caso, puede inventar una respuesta con seguridad, aunque sea incorrecta.

Esto explica por qué los modelos pueden dar información falsa sobre personajes conocidos, mientras se niegan a hablar de personas menos populares.

¿Cómo ayuda esto a la seguridad de la IA?

Comprender los mecanismos internos de modelos como Claude puede mejorar su seguridad y confiabilidad. Si sabemos cómo llega a sus respuestas, es más fácil detectar patrones de razonamiento erróneos o peligrosos.

Por ejemplo, los investigadores creen que estas técnicas podrían servir para:

  • Detectar si un modelo está mintiendo o inventando.

  • Evitar que dé respuestas sobre temas sensibles o peligrosos.

  • Redirigir sus respuestas hacia resultados más útiles o seguros.

Es como instalar sensores en un coche autónomo: cuanto más sepamos sobre lo que ve y decide, mejor podremos prevenir errores.

¿Qué falta por descubrir?

Aunque estas herramientas abren una ventana a la mente de la IA, solo revelan una pequeña parte de todo el proceso. Incluso en tareas cortas, los investigadores reconocen que solo han logrado captar una fracción del cálculo total que realiza el modelo.

En palabras del investigador Joshua Batson: “Hemos empezado a ver los contornos de cómo piensan estos sistemas, pero aún estamos muy lejos de comprender el mapa completo.”

Lo que sí está claro es que ya no tenemos que adivinar cómo actúan los modelos de IA: ahora podemos empezar a trazar su lógica paso a paso. Como los primeros anatomistas que dibujaban el cuerpo humano, los científicos de hoy están construyendo los primeros atlas del pensamiento artificial.