Stability AI, la empresa matriz que se encuentra detrás de los modelos de Inteligencia Artificial generativa de imágenes que impulsan a Stable Diffusion, anuncia hoy el lanzamiento de su primer conjunto de modelos de su nuevo lenguaje de IA generativa de textos llamada StableLM.
StableLM llega en fase alfa, cuyo código fuente se encuentra disponible tanto en GitHub como en Hugging Spaces, una plataforma especializada en el alojamiento de modelos de Inteligencia Artificial, siendo la apuesta de Stability AI en el segmento de los modelos de Inteligencia Artificial generativos de textos.
Enfoque de desarrollo abierto
La compañía ha optado nuevamente por un enfoque de desarrollo abierto, transparente y escalable, que permita recibir la máxima de las contribuciones posibles por parte de desarrolladores e investigadores, sirviendo de alternativa a los modelos de IA propietarios.
Stability AI pretende que StableLM compita con modelos de lenguaje de IA generativos de la competencia pese a su menor tamaño, formando este lanzamiento parte de un plan más ambicioso, donde los modelos de lenguaje de IA pasarán a ser la «columna vertebral» de su economía digital, según informan en su blog oficial.
Mayor rendimiento pese a ser de menor tamaño que la competencia
La compañía dice que está creando un nuevo conjunto de datos experimentales en The Pile para entrenar a StableLM, que será tres veces más grande que los conjuntos de datos de código abierto anteriormente utilizados para entrenar otros modelos, contando con un total de 1,5 billones de tokens de contenido.
Con ello, espera que StableLM pueda ofrecer un mayor rendimiento en tareas de conversación y codificación, pese a su menor tamaño, contando de 3 a 7 mil millones de parámetros frente a otros, como GPT-3, que tiene 175 mil millones de parámetros.
Con el tiempo se verá si los modelos de StableLM llegarán a ofrecer «alucinaciones» o serán más precisos y fiables.
Los otros modelos de IA lanzados hoy
Y además del lanzamiento de StableLM, la compañía también está lanzando un conjunto de modelos de investigación que son de instrucción afinada, que serán perfeccionados mediante el uso combinado de cinco conjuntos de datos de código abierto de creación reciente para agentes conversacionales: Alpaca, GPT4All, Dolly, ShareGPT y HH.
Estos lanzamientos se basan en la transparencia y búsqueda de confianza ante investigadores y organizaciones tanto públicas como privadas, accesibilidad para los usuarios cotidianos mediante implementaciones llevadas a cabo por desarrolladores, y que sirvan de apoyo para los usuarios y no como reemplazo de los mismos.
Más información/Crédito de imagen: Stability AI