El equipo de investigadores de Anthropic ha logrado algo que, hasta hace poco, se consideraba ciencia ficción: inducir pensamientos en un modelo de lenguaje y observar si es capaz de detectarlos por sí mismo. En otras palabras, han manipulado la red neuronal de Claude, su modelo de IA, para inyectar conceptos específicos y luego preguntarle si notaba algo distinto. El resultado ha sido sorprendente: Claude no solo detectó esos conceptos, sino que en ocasiones los describió como si fuesen pensamientos intrusivos.
Esta habilidad, aunque limitada y poco fiable en su forma actual, plantea preguntas importantes sobre el potencial de los modelos de lenguaje para autoevaluar sus procesos internos. Un pequeño porcentaje de introspección que, según los científicos, podría marcar el inicio de una nueva era en la interpretabilidad de sistemas de IA avanzados. Continúa leyendo «Claude y la introspección artificial: un vistazo al «pensamiento» de la IA»