Gemma: Todos los detalles sobre el nuevo modelo de Google

Publicado el

Ilustración minimalista de estilo cómic sobre tecnología y modelos de lenguaje de Google

¿Alguna vez has escuchado hablar de Gemma? Si te interesan los modelos de lenguaje y las aplicaciones de inteligencia artificial, es probable que sí. Pero si no, déjame contarte un poco sobre esta familia de modelos que Google ha lanzado recientemente y que promete dar mucho de qué hablar.

¿Qué es Gemma?

Gemma es una familia de modelos de lenguaje de última generación desarrollados por Google, basada en la tecnología utilizada para crear los modelos Gemini. Estos modelos son abiertos, es decir, sus pesos y arquitectura están disponibles para la comunidad, permitiendo a desarrolladores y entusiastas experimentar, personalizar y expandir sus capacidades.

Lo interesante de Gemma es su versatilidad. Existen variantes para diferentes usos y modalidades, como procesamiento de texto, generación de código y modelos multimodales que manejan tanto texto como imágenes. Pero más allá de eso, lo que destaca es la capacidad de estos modelos para adaptarse a diferentes necesidades de hardware y ser optimizados según las restricciones de cada caso​ (Home- Google Developers Blog) (blog.google).

¿Cómo funciona Gemma?

Los modelos Gemma se basan en una arquitectura Transformer pero, a diferencia de otros modelos, utiliza un enfoque «sólo decodificador». Es decir, Gemma se enfoca en la generación de texto a partir de un input dado. Este tipo de arquitectura es ideal para tareas como la traducción automática, la generación de texto y, lo que a mí me parece más interesante, la creación de código​ (Google AI for Developers).

Arquitectura en detalle

Hay algunos parámetros clave en la arquitectura de Gemma que vale la pena mencionar. El d_model, por ejemplo, define el tamaño de las representaciones internas dentro de las capas del modelo. Un mayor d_model permite que el modelo capture más matices y relaciones complejas en el texto, pero también lo hace más pesado y exigente en términos de recursos computacionales​ .

Otro punto importante son las dimensiones ocultas de la red feedforward. En Gemma, estas dimensiones son significativamente grandes, lo que potencia la capacidad del modelo para representar y transformar las entradas de manera más compleja. En lugar de utilizar la activación estándar ReLU, Gemma emplea una función de activación llamada GeGLU, que mejora el rendimiento en tareas de procesamiento del lenguaje natural​ .

Aplicaciones prácticas de Gemma

Una de las variantes más llamativas de Gemma es CodeGemma, un modelo optimizado para la generación y completado de código. Este modelo ha sido entrenado con más de 500 mil millones de tokens de código, lo que le permite no solo completar fragmentos de código sino también insertar código en medio de líneas existentes, algo que yo considero un avance notable para los desarrolladores que trabajan en entornos colaborativos​.

Y si estás pensando en implementar Gemma en tus proyectos, buenas noticias: Google ha facilitado su integración con herramientas populares como Hugging Face y ha optimizado su funcionamiento en hardware variado, desde GPUs de consumo hasta TPU Pods en la nube​ (Hugging Face).

Mi opinión sobre Gemma

En mi opinión, Gemma representa un paso importante hacia la democratización de la inteligencia artificial. El hecho de que Google haya decidido liberar estos modelos de manera abierta es un gran impulso para la comunidad de desarrolladores, ya que permite experimentar y crear aplicaciones más avanzadas y personalizadas sin tener que empezar desde cero.

En WWWhat’s New hemos hablado varias veces sobre la importancia de contar con herramientas accesibles y poderosas para el desarrollo de IA, y Gemma es un gran ejemplo de cómo la tecnología puede ponerse al servicio de todos, no solo de las grandes corporaciones.

¿Y tú, cómo ves el futuro con modelos como Gemma? ¿Crees que facilitarán el desarrollo de aplicaciones más inteligentes o que podrían plantear nuevos desafíos? Me encantaría conocer tu opinión.