Gemini 2.5 Flash Native Audio: avances en la inteligencia de voz en tiempo real

Publicado el

Ilustración surrealista y minimalista sobre la transcripción con inteligencia artificial sin grabación de audio, destacando la privacidad y seguridad de datos.

Google ha dado un nuevo paso en la evolución de sus modelos de inteligencia artificial al presentar la versión mejorada de Gemini 2.5 Flash Native Audio, una tecnología pensada para mejorar la interacción por voz en tiempo real. A diferencia de las versiones anteriores centradas en la generación de voz, este avance está diseñado para conversaciones naturales, funcionales y contextualizadas, lo que permite a los asistentes de voz actuar como verdaderos interlocutores.

Esta versión se ha integrado ya en varios productos de Google como Google AI Studio, Vertex AI y, por primera vez, se está desplegando en Gemini Live y Search Live. Esto implica que funciones como la ayuda en tiempo real al buscar información o desarrollar ideas con un asistente virtual se vuelven mucho más realistas y fluidas.

Mayor inteligencia para ejecutar funciones externas

Uno de los principales avances de Gemini 2.5 Flash Native Audio es su capacidad mejorada para realizar llamadas a funciones externas. Esto quiere decir que el modelo ahora es más preciso al detectar cuándo necesita buscar información adicional y cómo integrarla de manera natural en la conversación. En evaluaciones como ComplexFuncBench Audio, que analiza la ejecución de tareas múltiples con restricciones, este modelo obtuvo un 71,5% de efectividad, posicionándose como líder frente a versiones anteriores y modelos competidores.

Este tipo de habilidad resulta fundamental para aplicaciones que requieren un alto grado de automatización en procesos como atención al cliente o soporte técnico, donde es necesario responder de forma dinámica a distintas situaciones.

Seguimiento preciso de instrucciones complejas

Otro punto destacable es el manejo de instrucciones complejas, un aspecto crítico en la interacción con usuarios y desarrolladores. El nuevo modelo ha incrementado su capacidad de seguimiento de instrucciones de un 84% a un 90%, lo que se traduce en respuestas más fiables, completas y ajustadas a lo solicitado. Esta mejora mejora la experiencia general del usuario, especialmente en tareas que exigen coherencia en múltiples pasos o detalles específicos.

Conversaciones más fluidas y coherentes

La habilidad para mantener la coherencia en una conversación extensa también se ha fortalecido. Gemini 2.5 Flash Native Audio recuerda mejor los intercambios previos, lo que permite conversaciones multiturno más naturales y conectadas. Esto elimina la necesidad de repetir información o reformular preguntas, lo cual resulta clave para experiencias inmersivas, tanto en el ámbito empresarial como en el uso personal.

Casos de uso en el mundo real

Varias empresas ya están aprovechando estas capacidades en escenarios reales. En el caso de Shopify, sus clientes interactúan con el bot «Sidekick» de forma tan natural que muchos olvidan que hablan con una máquina. United Wholesale Mortgage, por su parte, ha logrado gestionar más de 14.000 préstamos gracias a la integración de Gemini 2.5 en sus procesos. Mientras tanto, la startup Newo.ai ha conseguido que sus recepcionistas virtuales reconozcan al hablante principal incluso en entornos ruidosos, cambien de idioma en plena conversación y mantengan un tono emocionalmente expresivo.

Traducción de voz en tiempo real con estilo natural

La novedad más llamativa llega con la nueva función de traducción de voz a voz en vivo, disponible en beta dentro de la app de Google Translate. Esta herramienta no solo traduce lo que escucha en tiempo real, sino que mantiene la entonación, el ritmo y el tono del hablante original, logrando que la traducción suene más humana.

Por ejemplo, si alguien habla en hindi y el usuario en inglés, los auriculares reproducen la traducción al inglés mientras que el teléfono responde en hindi. Esto permite una comunicación bidireccional sin necesidad de alternar manualmente entre idiomas. Todo esto funciona gracias a la detección automática del idioma hablado, la comprensión simultánea de múltiples idiomas y la capacidad de ignorar el ruido ambiente.

Esta función está disponible en dispositivos Android en Estados Unidos, México e India, y llegará a más regiones y plataformas en los próximos meses. La intención de Google es incorporar esta experiencia en otros productos, incluyendo la API de Gemini en 2026.

Un ecosistema listo para construir con voz

Con estas mejoras, los desarrolladores pueden comenzar a crear agentes conversacionales con voz natural desde ya, utilizando Gemini 2.5 Flash Native Audio a través de Vertex AI o en versión previa mediante la API de Gemini. Estas herramientas están pensadas para que empresas y creadores construyan soluciones capaces de comprender, responder y actuar con fluidez en contextos complejos.

Esta apertura no se limita a las funciones conversacionales, ya que también están disponibles los modelos Gemini 2.5 Flash y Pro para generación de voz, lo que permite un control detallado de aspectos como el tono o la intención al hablar.

El futuro de la voz en la inteligencia artificial apunta a una integración cada vez más profunda con nuestras herramientas cotidianas, desde la atención al cliente hasta la comunicación entre personas que no comparten idioma. Gemini 2.5 Flash Native Audio marca un paso clave en ese camino.