Project Astra: la nueva inteligencia multimodal de Google que transforma su buscador y mucho más

Google ha anunciado durante su evento Google I/O 2025 la expansión de Project Astra, una tecnología de inteligencia artificial multimodal y de baja latencia que ahora se integra en tres frentes principales: el buscador de Google, la aplicación Gemini y herramientas para desarrolladores.

Pero ¿qué significa esto en la práctica? Que ahora Google no solo procesa texto, sino que capta el mundo en tiempo real a través de la cámara o el micrófono de tu móvil, analiza lo que ve y escucha, y ofrece respuestas con una fluidez que roza lo instantáneo.

Búsquedas en vivo: preguntarle a lo que estás viendo

El cambio más visible para los usuarios es la llegada de la función Search Live. Esta se activa desde el modo AI del buscador o desde la herramienta Lens. Al pulsar el botón «Live», el móvil empieza a transmitir video y audio en directo a los servidores de Google. Ahí, Project Astra analiza la escena y puede responder en voz a preguntas como:

¿Qué edificio es ese?
¿Cuántas calorías tiene este plato?
¿Dónde puedo comprar algo parecido a estos zapatos?

Esto convierte al buscador en algo cercano a un compañero que observa contigo y te ayuda a entender el entorno. Como si Siri o Alexa hubieran aprendido a ver.

Gemini ahora con visión y pantalla compartida

Otra gran novedad es que estas funciones también se extienden a Gemini, la app de IA de Google. Hasta ahora, solo los suscriptores premium podían acceder a capacidades de video en tiempo real. Con la actualización, todos los usuarios podrán usar video y compartir pantalla en directo mientras interactúan con Gemini.

Imagina mostrarle a la IA una hoja de cálculo, una foto o una app abierta en tu pantalla. Astra interpreta el contenido y te orienta, ya sea para encontrar errores, extraer información o sugerir mejoras. Una ayuda práctica para estudiantes, profesionales o cualquier persona que quiera ir más allá del texto.

Un nuevo superpoder para desarrolladores

Google también ha actualizado su Live API, la interfaz que permite a desarrolladores integrar voz e imagen en sus propias aplicaciones con baja latencia. Ahora, gracias a Project Astra, los desarrolladores pueden:

Recibir input visual (como una imagen o un stream de video)
Procesar audio y responder con voz
Detectar emociones en la voz del usuario
Usar modelos de razonamiento más avanzados

Esto abre la puerta a crear asistentes virtuales más empáticos y conscientes del contexto, ideales para aplicaciones educativas, de atención al cliente o incluso terapias guiadas por IA.

Las gafas inteligentes: una promesa sin fecha

Aunque gran parte del entusiasmo viene por funciones ya disponibles, muchos esperan las gafas inteligentes de Project Astra, mostradas por primera vez en Google I/O 2024. Estas gafas permitían interactuar con la IA de forma natural, como si llevaras un asistente invisible a tu lado.

Google ha confirmado que está desarrollándolas junto a socios como Samsung y Warby Parker, pero todavía no hay una fecha de lanzamiento definida. Por ahora, Astra vive en tu móvil y en tus apps.

Más que una mejora, una nueva forma de usar la IA

Lo que diferencia a Project Astra no es solo su rapidez, sino su capacidad para entender múltiples formas de comunicación a la vez: texto, voz, imagen y contexto. Como si le hablaras a alguien que está viendo lo mismo que tú, y que además puede razonar con lo que ve.

Este enfoque multimodal y en tiempo real puede transformar desde la forma en que buscamos información hasta cómo nos comunicamos con sistemas automáticos. Es un paso más hacia interfaces naturales, donde no hace falta teclear ni explicar demasiado.

5 usos prácticos que podrías tener pronto con Project Astra

Traducir carteles o conversaciones en tiempo real mientras viajas.
Identificar productos o alimentos con solo enfocarlos con la cámara.
Resolver dudas técnicas al mostrarle tu pantalla a la IA.
Crear apps que detectan emociones en la voz y responden con empatía.
Mejorar la accesibilidad para personas con discapacidades visuales o auditivas.