Un gran paso para el euskera: Latxa, el modelo de lenguaje que abre puertas digitales

Publicado el

Latxa

En el ámbito de la tecnología lingüística, la Universidad del País Vasco (UPV-EHU) ha alcanzado un hito significativo con el desarrollo de Latxa, un avanzado modelo de lenguaje dedicado al euskera. Este logro demuestra el compromiso con la preservación y promoción del idioma, presentándose también como una solución clave para superar desafíos digitales específicos de la lengua vasca.

Latxa se cimienta en los innovadores modelos LLaMA de Meta, abarcando una gama que va desde los 7 hasta los 70 mil millones de parámetros. Esta amplitud de parámetros señala la complejidad y la potencialidad del modelo para entender y generar lenguaje humano de manera eficaz, abriendo así un abanico de posibilidades para el desarrollo de herramientas digitales en euskera, como los chatbots, que son aplicaciones capaces de simular conversaciones reales.

Uno de los mayores desafíos que enfrenta el euskera en el ámbito digital es la brecha tecnológica existente entre idiomas con amplios recursos y aquellos menos difundidos. Esta disparidad limita significativamente el desarrollo y la implementación de tecnologías avanzadas de procesamiento del lenguaje natural para idiomas como el euskera. El proyecto Latxa nace precisamente para enfrentar esta problemática, buscando no solo equiparar, sino también potenciar la presencia del euskera en la tecnología moderna.

El corpus utilizado para entrenar Latxa, denominado EusCrawl, comprende 1,72 millones de documentos y 288 millones de palabras extraídas de 33 sitios web en euskera, asegurando así una base de datos de alta calidad y relevancia cultural. Este enfoque meticuloso en la selección de datos garantiza que Latxa no solo sea capaz de comprender y generar texto en euskera, sino que también refleje el uso actual y auténtico del idioma.

La estrategia para maximizar el impacto de Latxa, que está ya en huggingface.co,  incluye la publicación de modelos abiertos, permitiendo así que desarrolladores y técnicos especializados puedan crear o adaptar aplicaciones específicas. Esta apertura hacia la colaboración y la innovación subraya la importancia de una comunidad activa y comprometida en el proceso de enriquecimiento tecnológico del euskera.

El director de HiTZ, Eneko Agirre, ha sido claro al respecto, reconociendo que, aunque el camino por delante es desafiante, el potencial para transformar el panorama tecnológico del euskera es inmenso.

A pesar del entusiasmo que rodea al lanzamiento de Latxa, estamos conscientes de que nos encontramos apenas en los albores de este emocionante viaje. La ambición de alcanzar un nivel de calidad y funcionalidad comparable al de los modelos de lenguaje para el inglés o el español con GPTs es alta, pero también lo es nuestro compromiso con la investigación continua.

Los modelos de Latxa, si bien son versiones básicas y aún no están optimizados para instrucciones o preferencias específicas dirigidas a usuarios finales, constituyen la piedra angular para el desarrollo de herramientas digitales avanzadas en euskera. La decisión de publicar estos modelos como recursos abiertos subraya un compromiso con la colaboración y el avance tecnológico, permitiendo a expertos técnicos personalizar y desarrollar soluciones específicas que respondan a las necesidades y particularidades del idioma.

Con Latxa, la UPV-EHU  ha puesto de relieve el valor del euskera en el contexto digital, estableciendo un precedente para cómo las lenguas con menos recursos pueden seguir avanzando en la era de la inteligencia artificial. Este es un testimonio del poder de la tecnología para fomentar la diversidad lingüística y cultural en nuestro mundo interconectado.