FunctionGemma: el modelo de Google con 270 millones de parámetros que convierte tu voz en acciones reales (sin internet)

Google ha expandido su app Google AI Edge Gallery a iOS y ha incorporado demostraciones de FunctionGemma, un modelo de IA de solo 270 millones de parámetros capaz de traducir instrucciones en lenguaje natural a acciones concretas del sistema operativo —crear un evento en el calendario, abrir una localización en Mapas, encender la linterna— directamente en el dispositivo, sin enviar datos a la nube. FunctionGemma es lo que se conoce como un modelo de llamadas a funciones en el dispositivo (on-device function calling): en lugar de limitarse a responder con texto, predice qué función del teléfono necesita ejecutar y la activa.

La diferencia con los asistentes de voz tradicionales es fundamental. Siri o Google Assistant procesan tus peticiones en servidores remotos. FunctionGemma lo hace en tu teléfono, con respuesta instantánea, funcionamiento offline completo y sin que tus datos salgan del dispositivo.

¿Cómo funciona un modelo tan pequeño?

El reto técnico es considerable. Tradicionalmente, los modelos capaces de interpretar lenguaje natural y mapearlo a llamadas a funciones requerían miles de millones de parámetros y una huella de memoria incompatible con hardware móvil. FunctionGemma resuelve esto con un enfoque de especialización extrema: no es un modelo conversacional de propósito general, sino un modelo diseñado exclusivamente para una tarea —traducir instrucciones a código ejecutable— y afinado (fine-tuned) para hacerla con precisión.

Los números lo ilustran. Según las evaluaciones internas de Google con su dataset «Mobile Actions», un modelo pequeño genérico alcanza solo un 58% de precisión en tareas de llamada a funciones. FunctionGemma, tras el fine-tuning, sube al 85%, igualando la tasa de éxito de modelos mucho más grandes. Con apenas 270 millones de parámetros, es lo bastante compacto para ejecutarse en el GPU de un móvil procesando hasta 2.585 tokens por segundo.

La analogía que mejor lo explica: si un modelo de lenguaje grande es un chef de alta cocina que sabe preparar cualquier plato, FunctionGemma es un especialista en tortillas que hace una sola cosa, pero la hace rápido, barato y sin necesitar una cocina industrial.

Las demos que muestran el potencial

Google ha publicado tres demostraciones dentro de la app AI Edge Gallery, disponible en Play Store y ahora también en App Store.

Mobile Actions es la más práctica. Puedes decir «Crea un evento de calendario para comer mañana», «Añade a Juan a mis contactos» o «Muéstrame el aeropuerto más cercano en el mapa», y el modelo identifica la función del sistema operativo correspondiente y la ejecuta directamente. No imita un toque humano en la pantalla; llama a la API del sistema, que es más rápido y fiable.

TinyGarden es un minijuego controlado por voz donde gestionas un huerto virtual. Dices «Planta girasoles en la fila de arriba y riégalos» y el modelo descompone la instrucción en llamadas a funciones específicas (plantCrop, waterCrop) con coordenadas de destino. Es una demostración lúdica de cómo el modelo maneja instrucciones complejas con múltiples acciones encadenadas.

Physics Playground permite controlar una simulación de física con instrucciones en lenguaje natural, demostrando la integración con JavaScript del lado del cliente.

¿Por qué importa que funcione sin internet?

Tres razones que van más allá de lo técnico.

Privacidad: todo se procesa localmente. Tu solicitud de «programa una cita con el médico el jueves» no viaja a ningún servidor. Para usuarios preocupados por la privacidad —y para sectores regulados como salud o finanzas— esto es un requisito, no una preferencia.

Latencia: la respuesta es instantánea. Sin viaje ida y vuelta al servidor, la acción se ejecuta en milisegundos. Cuando estás conduciendo y le pides al asistente que navegue a una dirección, esa diferencia importa.

Fiabilidad: funciona sin cobertura. En un avión, en un parking subterráneo, en una zona rural sin datos móviles, el asistente sigue operativo. Es una ventaja que los modelos en la nube no pueden replicar.

La arquitectura «controlador de tráfico»

VentureBeat describe la arquitectura ideal como un sistema híbrido donde FunctionGemma actúa como «controlador de tráfico inteligente» en el dispositivo. Las peticiones frecuentes y sencillas —navegación, control de medios, entrada de datos— se gestionan localmente con latencia casi nula. Si la solicitud requiere razonamiento profundo o conocimiento del mundo, el modelo la identifica y la redirige a un modelo más grande en la nube.

Este enfoque reduce drásticamente los costes de inferencia en la nube y la latencia para el usuario final. Para empresas que despliegan asistentes de IA a escala, la diferencia en coste por consulta se multiplica por millones de interacciones diarias.

FunctionGemma está disponible con pesos abiertos en Hugging Face y Kaggle, con licencia para uso comercial responsable. Google proporciona un cookbook de fine-tuning y soporte para despliegue mediante LiteRT-LM, vLLM, Ollama, MLX y otros frameworks. El ecosistema es abierto: los desarrolladores pueden personalizar el modelo para sus propias APIs y desplegarlo en dispositivos móviles, navegadores o hardware IoT.

Mi valoración: FunctionGemma no va a generar titulares como un nuevo GPT o Gemini, pero es el tipo de infraestructura que cambia ecosistemas. Si los asistentes del futuro van a actuar en lugar de solo hablar —como prevén Carl Pei de Nothing y muchos otros—, necesitan un motor local capaz de ejecutar funciones de forma fiable, privada y rápida. FunctionGemma es ese motor, y que sea abierto y personalizable lo convierte en una pieza sobre la que otros construirán.

Preguntas frecuentes

¿Qué es FunctionGemma? Un modelo de IA de 270 millones de parámetros de Google, basado en Gemma 3, diseñado para traducir instrucciones en lenguaje natural a llamadas a funciones del sistema operativo, ejecutándose completamente en el dispositivo sin necesidad de conexión a internet.

¿En qué dispositivos funciona? En Android e iOS a través de la app Google AI Edge Gallery. También puede desplegarse en navegadores y dispositivos IoT mediante LiteRT-LM y otros frameworks compatibles.

¿Es de código abierto? Los pesos del modelo están disponibles en Hugging Face y Kaggle con licencia para uso comercial responsable. Google proporciona herramientas de fine-tuning y despliegue.