WWWhat's new

Pequeños modelos, grandes posibilidades: así está evolucionando la IA en dispositivos locales con Google AI Edge

ilustración surrealista de inteligencia artificial local con Gemma 3n y función multimodal

Google ha dado un paso clave en el desarrollo de modelos pequeños de lenguaje (SLMs) para su ejecución directa en dispositivos como móviles, tabletas y navegadores. La gran novedad llega con Gemma 3n, el primer modelo pequeño de Google con capacidad multimodal que puede comprender texto, imágenes, video y audio. Esto abre nuevas puertas a aplicaciones inteligentes que no dependen de la nube para funcionar.

Imagina que estás en un almacén sin conexión a Internet. Con Gemma 3n en tu teléfono, puedes tomar una foto de una pieza dañada, describir el problema con la voz y recibir una explicación o un paso a paso de cómo reemplazarla. Todo esto ocurre en el dispositivo, sin enviar información a servidores externos, lo que mejora la privacidad y reduce la latencia.


Una colección creciente de modelos ligeros

La plataforma LiteRT en Hugging Face alberga más de una docena de estos modelos listos para ejecutar localmente. Entre ellos destaca Gemma 3 1B, con solo 529 MB de tamaño y una velocidad impresionante de hasta 2.585 tokens por segundo en GPU móvil. Esto le permite procesar rápidamente documentos completos sin consumir demasiados recursos.

Cada modelo se puede personalizar mediante «fine-tuning», y gracias a las nuevas herramientas de cuantización de Google, es posible reducir el tamaño hasta 4 veces usando formatos como int4, sin comprometer significativamente la calidad.


RAG en el dispositivo: respuestas personalizadas y contextualizadas

Otra gran incorporación es la compatibilidad con RAG (Retrieval Augmented Generation) en dispositivos Android. Esta técnica permite que un modelo pequeño acceda a información específica de una aplicación sin tener que reentrenarlo. Por ejemplo, una app de salud puede consultar historiales médicos locales para responder preguntas de forma personalizada y coherente.

Funciona como tener una mini biblioteca en tu teléfono: la IA busca en miles de documentos y selecciona solo los fragmentos más relevantes antes de generar una respuesta. Y todo eso ocurre sin salir del dispositivo.


Function Calling: que la IA haga cosas, no solo hable

Una cosa es que la IA responda preguntas, otra muy distinta es que ejecute acciones. Para eso llega Function Calling, una librería que permite a los modelos locales interactuar con funciones de la propia app. Imagina dictar tus datos personales a una app médica y que ésta, con ayuda del modelo, los clasifique y rellene los campos del formulario por ti.

La librería se encarga de registrar funciones, interpretar respuestas del modelo y ejecutar las llamadas correspondientes. Esto habilita interacciones mucho más naturales y funcionales, sin necesidad de conexiones externas. Además, existe una herramienta adicional para generar datos sintéticos que entrenen mejor estas capacidades, aumentando su precisión.


Casos de uso cotidianos y profesionales

La clave está en que estas soluciones son más privadas, más rápidas y más accesibles, al no requerir servidores externos para funcionar.


¿Qué sigue?

Google promete seguir ampliando su catálogo de modelos pequeños optimizados para el borde, con nuevas funciones, modalidades y plataformas. Las librerías de RAG y Function Calling seguirán evolucionando para facilitar la creación de apps realmente inteligentes, funcionales y autónomas.

Si estás desarrollando para Android, iOS o Web y buscas dotar a tus apps de funciones basadas en IA generativa que no dependan de la nube, este ecosistema puede ofrecerte justo lo que necesitas.

Salir de la versión móvil