Opinión sobre la promesa de un ChatGPT español hecha por Pedro Sánchez

En el pistoletazo de salida del MWC 2024, Pedro Sánchez anunció que se desarrollará un sistema «a lo ChatGPT» en España, entrenado con textos en español y lenguas cooficiales para que pueda tener un mejor rendimiento que los entrenados en inglés y que solo traducen el resultado.

No ha dado números relacionados con la inversión que se deberá hacer, ni ha dado detalles sobre para qué servirá este LLM que van a desarrollar. Solo ha comentado que quiere que España sea un centro importante de IA en el mundo, que la IA cambiará mucho el día a día de los españoles y que no quieren estar sentados mientras todo ocurre a nuestro alrededor.

El caso es que el modelo en cuestión se desarrollará con el BSC, donde está el supercomputador más grande España. El BSC ya se encarga de realizar tareas de todo tipo, y crear un nuevo «ChatGPT» será una de sus nuevas tareas.

Este modelo se caracterizará por ser transparente y de código abierto, y busca superar una barrera importante en la tecnología de IA: la dominancia del inglés como lengua principal en el desarrollo de estas tecnologías. Trabajarán también con la Red Española de Supercomputación, y con la Real Academia Española de la Lengua y la Asociación de Academias de la Lengua Española, que jugarán un papel crucial, asegurando que el modelo desarrolle una comprensión profunda y precisa de nuestra lengua.

El modelo no solo se enfocará en servir al mercado español sino que también se extenderá a los países hispanohablantes de América. Esta expansión internacional refleja el reconocimiento del español como una lengua global y la importancia de incluir diversas variantes lingüísticas en el entrenamiento del modelo.

El principal problema al que nos enfrentaremos

El caso es que todo esto está muy bien, pero hay un tema que no han mencionado con profundidad, y que es crítico: los datos que se usarán para el entrenamiento. No pueden limitarse a entrenarse con el diccionario.

ChatGPT usó datos de toda Internet, sin permiso, porque en otros países prefieren tirar la piedra primero y pedir perdón después. En Europa eso no está permitido, no se pueden extraer datos de sitios web sin permiso (a no ser que lo hagan sin que nos demos cuenta), por lo que estamos extremadamente limitados a la hora de entrenar modelos de Inteligencia Artificial. Es algo que ya comenté en su momento: estamos comprando datos de Asia para entrenar nuestros sistemas en el sector médico, porque coger radiografías de pacientes nacionales es una tarea extremadamente complicada.

Otro problema es el coste. Mantener ChatGPT es carísimo, es necesario un modelo de negocio extremadamente robusto, inversores e interés, y eso es algo que un nuevo ChatGPT puede tener problemas en encontrar. El nuevo proyecto tendría que ser mucho mejor que lo ya existente para que la gente apueste y pague por el nuevo modelo, y esa mejora en calidad está en la cuerda floja si tenemos en cuenta que los datos de entrenamiento son muy limitados.

Pero no seamos tan pesimistas

Aún así, hay que enfrentar las cosas con optimismo. Es cierto que lo veo muy difícil, pero más difícil es quedarse parado viendo como el mundo se divide entre lo que hace Estados Unidos y lo que hace China, mientras Europa únicamente se dedica a poner banners de cookies, a enunciar leyes de IA y a bloquear el acceso a datos de todo tipo. Lo que se hace desde Europa es necesario, sin duda, pero hay que salir de los despachos de los abogados y comenzar a poner las manos en la masa.