Etiqueta: interpretabilidad

Steerling-8B, el LLM que quiere “explicar sus deberes” token a token

Publicado el 25 febrero, 2026

Cualquiera que haya trabajado con un modelo de lenguaje grande conoce esa sensación: el sistema da una respuesta convincente, pero cuando preguntas “¿por qué?”, empieza el misterio. A veces el problema se llama alucinaciones; otras, comportamientos difíciles de corregir que aparecen tras un ajuste fino; otras, sesgos y asociaciones que se cuelan como ruido en una conversación aparentemente neutra. El resultado es parecido a pedirle a un estudiante que te muestre el procedimiento y que solo te entregue el número final.

En ese contexto, Guide Labs, una startup de San Francisco fundada por Julius Adebayo (CEO) y Aya Abdelsalam Ismail (chief science officer), ha presentado lo que describe como una nueva vía para la interpretabilidad: un modelo abierto de 8.000 millones de parámetros, Steerling-8B, cuyo diseño pretende que cada token generado pueda rastrearse hasta su origen en los datos de entrenamiento. La noticia se dio a conocer en TechCrunch, que detalla la propuesta como un intento de convertir la interpretabilidad en algo menos parecido a “neurociencia” y más a ingeniería. Continúa leyendo «Steerling-8B, el LLM que quiere “explicar sus deberes” token a token»

Claude empieza a «pensar sobre lo que piensa»: la introspección llega a la IA

Publicado el 4 noviembre, 2025

por Natalia Polo

Uno de los mayores retos de la inteligencia artificial es su condición de «caja negra». Aunque los modelos generativos actuales pueden ofrecer respuestas impresionantes, muchas veces es imposible saber qué procesos internos los llevaron a ellas. Esta falta de transparencia genera desconfianza y limita su aplicación en sectores críticos. Pero Anthropic está probando una posible salida: la introspección artificial.

Los modelos Claude Opus 4 y 4.1, según la propia Anthropic, muestran una habilidad incipiente para describir sus procesos internos. En cerca de un 20% de los casos, son capaces de explicar por qué ofrecieron una respuesta o qué pensaban cuando lo hicieron. Esto se traduce en una especie de comentario en voz alta de sus propias decisiones, como si un actor explicara su personaje durante la función. Continúa leyendo «Claude empieza a «pensar sobre lo que piensa»: la introspección llega a la IA»

Claude y la introspección artificial: un vistazo al «pensamiento» de la IA

Publicado el 1 noviembre, 2025

por Natalia Polo

El equipo de investigadores de Anthropic ha logrado algo que, hasta hace poco, se consideraba ciencia ficción: inducir pensamientos en un modelo de lenguaje y observar si es capaz de detectarlos por sí mismo. En otras palabras, han manipulado la red neuronal de Claude, su modelo de IA, para inyectar conceptos específicos y luego preguntarle si notaba algo distinto. El resultado ha sido sorprendente: Claude no solo detectó esos conceptos, sino que en ocasiones los describió como si fuesen pensamientos intrusivos.

Esta habilidad, aunque limitada y poco fiable en su forma actual, plantea preguntas importantes sobre el potencial de los modelos de lenguaje para autoevaluar sus procesos internos. Un pequeño porcentaje de introspección que, según los científicos, podría marcar el inicio de una nueva era en la interpretabilidad de sistemas de IA avanzados. Continúa leyendo «Claude y la introspección artificial: un vistazo al «pensamiento» de la IA»

Descifrando el cerebro de los modelos de lenguaje: la nueva herramienta de Anthropic para entender por qué fallan

Publicado el 8 junio, 2025

por Natalia Polo

Los modelos de lenguaje de gran escala (LLM) se han convertido en pilares fundamentales para muchas empresas. Desde la automatización de procesos hasta la generación de contenido, su impacto es innegable. Sin embargo, su naturaleza opaca —algo así como trabajar con una caja negra que responde, pero no explica cómo piensa— ha generado numerosos retos. Afortunadamente, Anthropic ha dado un paso importante para iluminar este laberinto con el lanzamiento de su herramienta circuit tracing, ahora disponible como código abierto. Continúa leyendo «Descifrando el cerebro de los modelos de lenguaje: la nueva herramienta de Anthropic para entender por qué fallan»

LlamaV-o1: El modelo de IA que revoluciona el razonamiento paso a paso

Publicado el 14 enero, 2025

por Juan Diego Polo

La inteligencia artificial (IA) avanza a pasos agigantados, y cada nuevo modelo nos acerca más a una tecnología que no solo resuelve problemas, sino que también explica cómo lo hace. LlamaV-o1, desarrollado por la Universidad de Inteligencia Artificial Mohamed bin Zayed (MBZUAI), es una prueba de este progreso. Este modelo de vanguardia no solo supera a sus competidores en tareas complejas de razonamiento, sino que también establece un nuevo estándar al proporcionar explicaciones detalladas paso a paso de sus procesos. Veamos por qué este enfoque es tan significativo y qué implica para el futuro de la IA.

Continúa leyendo «LlamaV-o1: El modelo de IA que revoluciona el razonamiento paso a paso»