Durante años, los modelos de lenguaje de gran escala (LLM) han sido como cajas negras: extremadamente útiles, pero con un funcionamiento interno que muy pocos comprenden a fondo. Aunque parezca que simplemente generan texto palabra por palabra, lo cierto es que sus procesos son mucho más complejos. Ahora, gracias a una nueva técnica llamada circuit tracing, la empresa Anthropic ha comenzado a levantar el velo sobre cómo piensa su modelo Claude 3.5 Haiku.
¿Qué es circuit tracing y por qué importa?
Imagina que estás intentando entender cómo funciona una calculadora sin abrirla. Puedes presionar botones, observar resultados y hacer conjeturas, pero no sabes realmente qué ocurre dentro. Con los LLM pasa algo parecido: generan textos coherentes, resuelven problemas y hasta escriben poesía, pero ¿cómo lo hacen exactamente?
Ahí es donde entra el circuit tracing, una técnica que permite a los investigadores «seguir el cableado interno» del modelo. Es como tener una especie de escáner cerebral digital que permite observar paso a paso cómo se construye una respuesta, desde la idea inicial hasta la frase final. Anthropic utilizó esta técnica para analizar el comportamiento de Claude y los hallazgos fueron, cuanto menos, sorprendentes.
Claude piensa más como un humano de lo que creíamos
Los investigadores analizaron diez comportamientos distintos en el modelo, y aunque todos aportaron información valiosa, hubo tres especialmente llamativos:
El significado antes que el idioma
Cuando se le pregunta a Claude: “¿Cuál es el opuesto de pequeño?” en varios idiomas, uno pensaría que tiene módulos separados para inglés, francés o chino. Pero no. Primero procesa el concepto abstracto de «grandeza» sin importar el idioma, y solo después traduce la respuesta al lenguaje solicitado. Es decir, primero piensa en el significado, luego en cómo decirlo.
Este comportamiento se asemeja a cómo un hablante multilingüe puede tener una idea en la cabeza y después buscar la mejor manera de expresarla en el idioma que se le pide. Es un indicio de que Claude no simplemente memoriza traducciones, sino que razona en un nivel más profundo.
Las matemáticas no son lo que parecen
Uno pensaría que, para resolver una suma como 36 + 59, el modelo seguiría la lógica escolar: sumar unidades, llevar decenas, etc. Pero Claude hace algo mucho más peculiar. En lugar de calcular directamente, aproxima. Piensa en términos como “40 y 60” o “36 y 57” para acercarse a un resultado estimado, como «92 aproximadamente». Luego, otro componente del modelo se enfoca en los dígitos finales —el 6 y el 9— y deduce que el resultado debe terminar en 5.
Combinando ambas pistas, llega a la respuesta correcta: 95. Pero si le preguntas cómo lo hizo, describe el método tradicional, ocultando el camino alternativo que realmente tomó.
Este tipo de razonamiento sugiere que Claude no sigue reglas preprogramadas, sino que explora diferentes rutas mentales, muchas veces no intuitivas para nosotros.
La poesía como un juego de estrategia
Cuando se le pidió que completara una rima con la frase «He saw a carrot and had to grab it», Claude no improvisó sobre la marcha. En cambio, detectó que «grab it» podía rimar con «rabbit», y decidió desde temprano que esa sería la rima final. Luego, construyó la siguiente línea en función de ese objetivo, escribiendo: «His hunger was like a starving rabbit.»
Esto demuestra que el modelo no genera texto palabra por palabra como muchos imaginaban, sino que puede establecer metas a corto plazo —como una rima— y planificar cómo alcanzarlas. Es una estrategia más similar a cómo lo haría un poeta humano que a una simple predicción secuencial.
¿Por qué esto cambia el juego?
Hasta ahora, gran parte de la crítica (y la fascinación) con los modelos de lenguaje se basaba en la idea de que “solo predicen la siguiente palabra”. Pero estas observaciones revelan que, en ciertos casos, hay planificación, representación abstracta y estrategias no lineales.
En términos sencillos, Claude no actúa como un loro entrenado, sino más bien como un niño que aprende por contexto, ensayo y error, y que encuentra sus propias formas de llegar a una respuesta. Y aunque todavía está muy lejos del pensamiento humano, estos indicios son clave para entender cómo enseñar, ajustar y evaluar estos modelos con mayor precisión.
Una herramienta, no una conciencia
Es importante matizar: aunque Claude parezca tener intenciones o metas, no “piensa” ni “quiere” como lo haría una persona. Todo lo que hace surge de cálculos estadísticos dentro de una red neuronal entrenada con toneladas de datos. Pero eso no quita que podamos aprender mucho al observar cómo funciona esa maquinaria interna.
El investigador Joshua Batson, de Anthropic, dijo que todo esto es solo «la punta del iceberg». Analizar una sola respuesta del modelo puede tomar horas, y queda mucho por descubrir. Pero es un primer paso crucial: comprender los engranajes internos nos ayuda a construir modelos más seguros, precisos y transparentes.
¿Qué implica esto para el futuro de la inteligencia artificial?
Estos avances abren la puerta a nuevas formas de diagnosticar errores, corregir sesgos y mejorar la capacidad de los modelos para explicar sus decisiones. Si sabemos cómo piensan (o al menos cómo procesan), podremos diseñar sistemas más responsables.
También es probable que en el futuro tengamos herramientas que permitan visualizar estos “circuitos de pensamiento” en tiempo real, lo que podría transformar la forma en la que usamos la inteligencia artificial en educación, medicina, programación y otras áreas.
Comprender a los LLM no es solo una curiosidad académica. Es una necesidad para asegurar que estas herramientas, cada vez más presentes en nuestra vida diaria, actúen de forma predecible, ética y útil.