Gemma 4 12B: el modelo multimodal de Google que corre en tu portátil con 16 GB de RAM y procesa texto, imagen y voz sin encoders separados

Google DeepMind publicó el 3 de junio de 2026 el developer guide y las instrucciones de despliegue de Gemma 4 12B, el nuevo modelo open-weights de la familia Gemma que completa el tramo entre los modelos de borde ligeros y los modelos de servidor. La novedad técnica más relevante: no tiene encoders de visión ni de audio separados. Texto, imagen y audio entran directamente en el backbone del LLM. En un portátil con 16 GB de RAM unificada (o VRAM dedicada), Gemma 4 12B puede correr localmente y manejar los tres.

La arquitectura que lo diferencia

Los modelos multimodales habituales tienen una arquitectura en capas: un encoder de visión (como el de CLIP) convierte las imágenes en embeddings, un encoder de audio convierte el sonido en tokens, y después esos embeddings pasan al LLM principal. Esa arquitectura añade latencia, complejidad y parámetros extra.

Gemma 4 12B elimina esa capa intermedia. Los inputs de imagen y audio se alimentan directamente al backbone del transformer del LLM. El resultado:

Menor latencia multimodal: sin round-trip por encoders separados.
Menor tamaño de memoria para el mismo nivel de capacidad multimodal.
Audio nativo en un modelo de 12B: en la familia Gemma, el audio estaba limitado a modelos de borde pequeños (hasta 4B). El 12B es el primero de tamaño medio con ingesta de audio nativa.

En benchmarks, Gemma 4 12B alcanza rendimiento próximo al modelo Gemma 4 26B (MoE) con menos de la mitad de la huella de memoria. Google la describe como «laptop-ready» con 16 GB de RAM — lo que en práctica significa MacBook Pro con M3/M4 (memoria unificada), portátiles con RTX 4080 o superior, y algunas configuraciones Q4 que funcionan incluso en hardware más modesto.

Qué puede hacer en la práctica

Google publicó demos concretas en el developer guide:

Análisis de vídeo: el equipo extrajo frames del keynote del Google I/O 2026, pasó los fotogramas + audio a Gemma 4 12B y el modelo describió y analizó el contenido de 5 minutos de vídeo.
Coding agéntico: servido localmente con llama.cpp, Gemma 4 12B construyó por sí mismo una app de Gradio para procesar imágenes, usando el mismo modelo que creó el código para ejecutarlo.
ASR (reconocimiento automático de voz): el modelo puede transcribir audio directamente, sin herramientas externas como Whisper.
Tool use / function calling: soporte nativo para uso de herramientas en flujos de trabajo agénticos.

Google también lanzó junto al modelo un Gemma Skills Repository: una biblioteca de skills diseñadas para que agentes construidos sobre Gemma puedan usar las capacidades del modelo de forma estandarizada.

El ecosistema de despliegue

Gemma 4 12B está disponible en Hugging Face y Kaggle con licencia Apache 2.0 — uso comercial permitido. Las herramientas compatibles para inferencia local incluyen:

Hugging Face Transformers (integración directa)
llama.cpp (inferencia en CPU/GPU, con cuantización Q4 para hardware más modesto)
MLX (Apple Silicon)
SGLang y vLLM (producción en servidores)
Unsloth (fine-tuning eficiente)
LM Studio y Ollama (interfaces para usuarios no técnicos)
Google AI Edge Gallery: app para macOS donde el modelo corre localmente.
Google AI Edge Eloquent: app de dictado de voz on-device ya disponible.

El modelo también incluye Multi-Token Prediction (MTP) drafters para acelerar la inferencia local — una técnica que genera varios tokens en paralelo en lugar de uno a la vez.

Por qué importa para developers y empresas

La pregunta práctica que Gemma 4 12B responde es: ¿necesitas realmente enviar cada workflow visual, de audio o agéntico a una API alojada, con sus implicaciones de latencia, coste y privacidad?

Para muchos casos de uso empresariales — análisis de documentos, procesamiento de llamadas, diagnóstico de campo, automatización de procesos internos — la respuesta puede ser no. Un modelo de 12B corriendo en hardware local puede gestionar:

Reuniones transcritas localmente sin que el audio salga del dispositivo.
Análisis de imágenes de inventario sin necesidad de conexión.
Coding assistants en entornos air-gapped (sin internet).
Pipelines de datos confidenciales con soberanía total sobre dónde se procesan.

La comparación que circula en r/LocalLLaMA al día de la publicación es con Qwen y Phi de Microsoft — otros modelos de tamaño similar con capacidades multimodales. Gemma 4 12B entra en ese mercado con la ventaja del soporte directo de Google y la integración con Google Cloud para quien quiera hacer el salto a producción en servidor.

Mi valoración

Gemma 4 12B es el modelo de código abierto de Google más útil para developers desde Gemma 2. La arquitectura sin encoders separados no es solo un detalle técnico — es una apuesta de diseño que reduce la barrera para construir aplicaciones multimodales locales sin tener que orquestar múltiples componentes.

Lo que más me convence es el audio nativo. Hasta ahora, añadir capacidades de voz a un pipeline local requería una herramienta separada (Whisper u otras). Tenerlo integrado en el mismo modelo que razona, genera código y analiza imágenes simplifica significativamente la arquitectura de muchas aplicaciones.

Lo que más me preocupa son los requerimientos de hardware. «16 GB de RAM» en Apple Silicon unificado funciona; en una PC con 16 GB de RAM del sistema pero GPU dedicada con 8 GB de VRAM es más complejo. Las guías de cuantización de la comunidad ayudarán, pero habrá fricción para usuarios menos técnicos.

Lo más estructuralmente significativo es la velocidad de integración del ecosistema. En cuestión de horas tras el lanzamiento, Ollama, LM Studio y llama.cpp ya tienen soporte anunciado o en proceso. Eso es lo que distingue a un modelo que se usa de uno que se estudia.

Preguntas frecuentes

¿Cuánta memoria necesita Gemma 4 12B para correr localmente?

El requisito oficial es 16 GB de VRAM o memoria unificada para la versión FP16 completa. En cuantización Q4 (con algo de pérdida de calidad), el modelo puede correr en hardware con aproximadamente 7-8 GB de VRAM, haciéndolo accesible en GPUs de gama media. En Apple Silicon (MacBook Pro M3/M4 con 16 GB de memoria unificada), el modelo corre sin GPU dedicada.

¿Qué significa que Gemma 4 12B sea «encoder-free»?

Significa que el modelo no tiene componentes separados para procesar imágenes o audio antes de pasarlos al LLM principal. Texto, imagen y audio se introducen directamente en el backbone del transformer. Esto reduce la latencia, simplifica la arquitectura del sistema y hace posible procesar los tres tipos de input en un solo modelo de 12B sin necesitar encoders adicionales en memoria.

¿Se puede usar Gemma 4 12B en proyectos comerciales?

Sí. Gemma 4 12B se publica bajo licencia Apache 2.0, que permite el uso comercial. Las pesas del modelo están disponibles gratuitamente en Hugging Face y Kaggle.