Steerling-8B, el LLM que quiere “explicar sus deberes” token a token

Cualquiera que haya trabajado con un modelo de lenguaje grande conoce esa sensación: el sistema da una respuesta convincente, pero cuando preguntas “¿por qué?”, empieza el misterio. A veces el problema se llama alucinaciones; otras, comportamientos difíciles de corregir que aparecen tras un ajuste fino; otras, sesgos y asociaciones que se cuelan como ruido en una conversación aparentemente neutra. El resultado es parecido a pedirle a un estudiante que te muestre el procedimiento y que solo te entregue el número final.

En ese contexto, Guide Labs, una startup de San Francisco fundada por Julius Adebayo (CEO) y Aya Abdelsalam Ismail (chief science officer), ha presentado lo que describe como una nueva vía para la interpretabilidad: un modelo abierto de 8.000 millones de parámetros, Steerling-8B, cuyo diseño pretende que cada token generado pueda rastrearse hasta su origen en los datos de entrenamiento. La noticia se dio a conocer en TechCrunch, que detalla la propuesta como un intento de convertir la interpretabilidad en algo menos parecido a “neurociencia” y más a ingeniería.

Qué promete Steerling-8B: rastrear el origen de cada token

La idea central es ambiciosa por lo concreta: si el modelo afirma un hecho, debería ser posible identificar qué materiales de referencia alimentaron esa afirmación. Si hace un chiste, o usa un giro cultural sobre género o humor, el objetivo es que esa producción no sea una caja negra, sino un resultado con trazabilidad.

Para aterrizarlo con un ejemplo cotidiano: imagina una receta. Un LLM tradicional te sirve el plato terminado; si algo sabe raro, te toca adivinar si fue la sal, el horno o el ingrediente que no viste. Guide Labs quiere que el sistema te entregue también el “libro de cocina”, indicando qué ingredientes y qué pasos influyeron en cada bocado del resultado.

Adebayo lo expresa con un problema concreto: conceptos complejos como “género” pueden codificarse en muchísimas “formas internas” dentro de un modelo. Detectarlas y controlarlas a posteriori puede ser frágil. La propuesta de Steerling-8B intenta que ese control sea más fiable desde el diseño, no solo desde el parche.

La “capa de conceptos”: ordenar el armario antes de vestirlo

Según lo descrito, el enfoque técnico consiste en insertar una capa de conceptos dentro de la arquitectura. Esa capa actúa como un sistema de “cubos” o categorías trazables donde se va agrupando información. Así, cuando el modelo genera, no solo produce texto: también mantiene una especie de hilo conductor que permite vincular partes de la salida con categorías y con porciones del entrenamiento.

La contrapartida es clara: este sistema exige más anotación por adelantado. Dicho de otra manera, hay que etiquetar más y mejor antes de entrenar, como si en vez de tirar todo en un cajón y confiar en que el modelo “ya encontrará” lo útil, decidieras clasificarlo por tipos, temas y usos. Guide Labs sostiene que han apoyado esa carga con ayuda de otros sistemas de IA para escalar el proceso y entrenar su mayor prueba de concepto hasta la fecha

Adebayo conecta esta línea con su etapa en MIT: coautoró un trabajo académico en 2018 que cuestionaba la fiabilidad de métodos comunes para entender modelos de deep learning. Ese punto de partida es relevante porque marca una postura: si el “análisis forense” de modelos no es suficientemente sólido, quizá convenga construir modelos que nazcan siendo auditables.

¿Se pierde la magia de los comportamientos emergentes?

Una preocupación habitual aparece rápido: si estructuras tanto el aprendizaje, ¿no limitas lo que hace atractivos a los LLM, esa capacidad de generalizar y descubrir patrones no explicitados? Guide Labs reconoce el riesgo, pero afirma que su modelo sigue mostrando comportamientos emergentes. Hablan incluso de “conceptos descubiertos” por el propio sistema, como computación cuántica, que el modelo habría organizado como noción sin que todo estuviera “preasignado” en una etiqueta rígida (TechCrunch).

Aquí conviene una metáfora sencilla: etiquetar libros en una biblioteca no impide que, al leerlos, conectes ideas y hagas asociaciones nuevas. La pregunta real es si el etiquetado te ayuda a encontrar el libro correcto cuando lo necesitas, sin convertir la biblioteca en un museo donde no se puede mover nada. La apuesta de Steerling-8B es que se puede tener orden y creatividad, o al menos un equilibrio razonable.

Control fino para productos, cumplimiento y sectores regulados

La interpretabilidad no es solo una cuestión filosófica; tiene consecuencias prácticas y legales. Para herramientas de consumo, Guide Labs plantea usos directos como bloquear el empleo de materiales con copyright o mejorar el control de salidas en temas delicados como violencia o abuso de drogas. En el plano empresarial, la conversación se vuelve más seria: en sectores regulados como finanzas, una evaluación automatizada de préstamos debería considerar registros financieros y excluir variables como raza. Esa separación, cuando el modelo es opaco, se vuelve difícil de demostrar.

La trazabilidad token a token busca ofrecer una especie de “recibo” de razonamiento. No significa que el sistema piense como un humano, ni que la explicación sea perfecta, pero apunta a un terreno donde auditores y equipos de cumplimiento puedan preguntar: “¿de dónde sale esto?” y recibir algo más que confianza ciega.

La ciencia como campo de prueba: aprender sin perder el porqué

El texto también menciona el interés en aplicaciones científicas. Se cita el caso de plegamiento de proteínas, una de las historias de éxito del deep learning. Aun así, muchos investigadores se enfrentan al mismo dilema: el modelo acierta, pero cuesta entender por qué propone ciertas combinaciones prometedoras. Cuando lo que está en juego son hipótesis, experimentos y recursos de laboratorio, la explicación no es un lujo; es una herramienta para decidir qué vale la pena probar y qué no.

Dicho en términos cotidianos: si un GPS te sugiere una ruta rarísima pero llega más rápido, quieres saber si evita tráfico real o si está confundiendo una calle cortada. En ciencia, esa diferencia puede ser un mes de trabajo.

Rendimiento, datos y la promesa del 90%

Guide Labs afirma que Steerling-8B logra alrededor del 90% de la capacidad de modelos existentes, usando menos datos de entrenamiento gracias a su arquitectura. Es una afirmación potente, aunque conviene leerla con mentalidad comparativa: “capacidad” puede depender del conjunto de pruebas, del dominio y de cómo se mida. Aun así, el planteamiento apunta a algo interesante: si parte del rendimiento se consigue con mejor estructura interna y no solo con más datos y más parámetros, la industria podría tener un camino alternativo al “entrenar cada vez más grande”.

Adebayo lo resume como un cambio de etapa: entrenar modelos interpretables dejaría de ser un problema científico para convertirse en un problema de ingeniería, con la implicación de que se puede escalar y perfeccionar como cualquier otro sistema (TechCrunch).

De Y Combinator al siguiente paso: modelo mayor y acceso por API

La empresa viene del ecosistema de Y Combinator y, según TechCrunch, cerró una ronda seed de 9 millones de dólares liderada por Initialized Capital en noviembre de 2024. Su siguiente objetivo declarado es entrenar un modelo más grande y ofrecer acceso por API y capacidades agentic, es decir, sistemas que no solo responden, sino que ejecutan tareas con cierto grado de autonomía (TechCrunch).

Ese detalle importa: cuando un agente toma decisiones encadenadas, la necesidad de interpretabilidad se vuelve más urgente. No es lo mismo que un chatbot se equivoque en un dato a que un agente “haga cosas” en tu nombre con criterios difíciles de auditar.

Lo que está en juego: confianza práctica, no fe

La propuesta de Guide Labs se puede leer como una búsqueda de confianza verificable. No pretende que los modelos dejen de ser complejos; pretende que esa complejidad sea gestionable. Si el rumbo de la industria empuja hacia sistemas “muy inteligentes”, como dice Adebayo, la pregunta ya no es solo si funcionan, sino si podemos convivir con decisiones automatizadas que no sepamos explicar (TechCrunch).

En última instancia, Steerling-8B coloca una idea sobre la mesa: quizá la próxima ventaja competitiva no sea solo “responder mejor”, sino responder de forma controlable y demostrable. Para empresas, reguladores y usuarios, eso se parece menos a una promesa abstracta y más a una condición mínima para confiar.