Cualquiera que haya trabajado con un modelo de lenguaje grande conoce esa sensación: el sistema da una respuesta convincente, pero cuando preguntas “¿por qué?”, empieza el misterio. A veces el problema se llama alucinaciones; otras, comportamientos difíciles de corregir que aparecen tras un ajuste fino; otras, sesgos y asociaciones que se cuelan como ruido en una conversación aparentemente neutra. El resultado es parecido a pedirle a un estudiante que te muestre el procedimiento y que solo te entregue el número final.
En ese contexto, Guide Labs, una startup de San Francisco fundada por Julius Adebayo (CEO) y Aya Abdelsalam Ismail (chief science officer), ha presentado lo que describe como una nueva vía para la interpretabilidad: un modelo abierto de 8.000 millones de parámetros, Steerling-8B, cuyo diseño pretende que cada token generado pueda rastrearse hasta su origen en los datos de entrenamiento. La noticia se dio a conocer en TechCrunch, que detalla la propuesta como un intento de convertir la interpretabilidad en algo menos parecido a “neurociencia” y más a ingeniería. Continúa leyendo «Steerling-8B, el LLM que quiere “explicar sus deberes” token a token»