Google ha presentado Gemma 3, la nueva versión de su familia de modelos de lenguaje multimodal. Esta entrega no solo hereda mejoras introducidas por sus predecesores, sino que también incorpora funciones nuevas como la capacidad de comprender imágenes, manejar contextos más extensos y ofrecer mejor rendimiento con menor consumo de recursos.
A continuación, te explicamos de forma clara y amigable qué trae de nuevo Gemma 3 y en qué situaciones podrías preferirlo sobre otras versiones.
Comprensión visual: la gran incorporación
Una de las características más llamativas de Gemma 3 es su soporte para tareas de visión y lenguaje. Esto significa que ahora puede analizar imágenes junto con texto, gracias a un codificador visual SigLIP personalizado.
Para que te hagas una idea, este codificador toma imágenes en formato cuadrado de 896×896 pixeles. Si la imagen original no es cuadrada o tiene alta resolución, se usa un método llamado «Pan & Scan» para recortarla inteligentemente y adaptarla al formato correcto.
Luego, esa imagen se convierte en una serie de «soft tokens«, que funcionan como pequeñas piezas de información visual comprimida. Esta representación permite al modelo procesar imágenes con menor coste computacional, manteniendo una buena calidad de interpretación visual.
Atención intercalada: memoria más eficiente
Uno de los problemas de los modelos anteriores es que usar demasiada «memoria de contexto» (conversaciones largas, documentos extensos) implicaba mucho consumo de recursos. Gemma 3 soluciona esto con una estrategia llamada atención 5 a 1 intercalada.
Esto significa que por cada cinco capas de atención local (que solo miran una parte pequeña del texto), hay una capa de atención global (que ve el conjunto completo). Como analogía, es como leer un libro con una lupa que a veces se aleja para ver toda la página.
Este sistema logra un equilibrio entre precisión y eficiencia, ideal para tareas donde hay que mantener coherencia en textos largos sin saturar la memoria.
Capacidad de contexto ampliada
Gracias a estas optimizaciones, Gemma 3 es capaz de procesar contextos mucho más largos que sus versiones anteriores:
- El modelo de 1B puede manejar hasta 32.000 tokens (unas 25.000 palabras).
- Los modelos mayores alcanzan los 128.000 tokens, lo que equivale a una novela entera o varias horas de transcripción.
Esto lo convierte en una opción ideal para profesionales que necesiten trabajar con documentos extensos, conversaciones prolongadas o análisis de grandes volúmenes de información.
Mejor soporte para idiomas
Uno de los puntos mejorados en esta versión es su capacidad multilingüe. Gracias a un nuevo mezclado de datos en su entrenamiento (con más textos en distintos idiomas) y a un tokenizador renovado, Gemma 3 es mucho más equilibrado y preciso al trabajar en lenguas distintas del inglés.
Este tokenizador, heredado del modelo Gemini, permite un reparto más justo del vocabulario, favoreciendo una mejor comprensión en idiomas con estructuras gramaticales y vocabularios distintos.
Diferencias frente a PaliGemma 2
Aunque ambos modelos tienen capacidades de visión y lenguaje, Gemma 3 y PaliGemma 2 están pensados para usos distintos:
- PaliGemma 2 sobresale en tareas como segmentación de imágenes o detección de objetos.
- Gemma 3 destaca por su rendimiento general, soporte multilenguaje y capacidad para mantener conversaciones multimodales.
Si trabajas con tareas muy visuales, PaliGemma puede ser más adecuado. Pero si tu prioridad es un modelo versátil que entienda tanto texto como imágenes, y que funcione bien en varios idiomas y contextos largos, Gemma 3 es la opción a considerar.
Modelos para todos los dispositivos
Otra gran novedad es la adaptación de Gemma 3 1B para funcionar en dispositivos móviles o con recursos limitados. Esto abre la puerta a que aplicaciones con IA puedan ejecutarse sin necesidad de conexión constante a servidores, ganando en privacidad y velocidad.
Por otro lado, el modelo Gemma 3 27B apunta a entornos profesionales, ofreciendo un rendimiento que compite con modelos mucho más grandes, pero optimizado para ejecutarse en una GPU o TPU de consumo.
Rendimiento y eficiencia
Las pruebas técnicas muestran que Gemma 3 supera a Gemma 2 en varios benchmarks, incluso en sus versiones más pequeñas. Logra resultados competitivos frente a modelos más grandes y costosos.
Esto se debe a:
- Reducción de uso de memoria en inferencia gracias a su nuevo sistema de atención.
- Tokenizador mejorado, más justo con idiomas no anglosajones.
- Soporte para contexto largo hasta 128k tokens.
- Mejor tratamiento de imágenes con resolución elevada y el algoritmo Pan & Scan.
Para qué tipo de proyectos conviene usar Gemma 3
Gemma 3 es especialmente útil en contextos como:
- Chatbots multimodales que deban comprender imágenes y texto.
- Análisis de documentos largos como contratos, tesis o literatura.
- Aplicaciones en varios idiomas.
- Uso en móviles u offline, gracias al modelo 1B.
- Tareas que requieren equilibrio entre rendimiento y eficiencia, sin necesidad de hardware costoso.
