Gemini Omni: el modelo de Google que convierte cualquier entrada en vídeo cinematográfico

Google ha presentado en el I/O 2026 un modelo que cierra el último hueco de su apuesta multimodal: Gemini Omni, capaz de generar vídeo de alta calidad a partir de cualquier combinación de texto, imágenes y vídeo de entrada. La diferencia con sus modelos anteriores es de arquitectura, no solo de calidad: Omni combina la inteligencia de Gemini con los modelos generativos multimedia de Google en una sola pieza, lo que significa que la comprensión del mundo y la capacidad de generar contenido a partir de él van unidas. El primer modelo de la familia —Gemini Omni Flash— está disponible desde hoy en la app Gemini, en Google Flow y en YouTube Shorts. Para desarrolladores y clientes empresariales llega a través de APIs en las próximas semanas. No es una promesa a largo plazo: es un modelo en producción. Lo anuncia el equipo de DeepMind en el blog oficial de Google el 19 de mayo de 2026.

Qué hace exactamente Gemini Omni

La descripción técnica es compacta: genera muestras en cualquier formato de salida a partir de cualquier entrada, empezando por vídeo. La promesa creativa es más amplia: edición conversacional del vídeo. Puedes subir metraje desde tu carrete, pedir un zoom cinematográfico, cambiar el fondo con un prompt de texto, aplicar una plantilla con un toque y exportar contenido acabado sin hardware especializado ni jerga técnica.

El caso de uso más llamativo es el avatar personalizado: Gemini Omni puede generar un avatar que te replique en apariencia y voz, y colocarlo en una escena. Para creadores de contenido es relevante; para el mercado de vídeo corporativo y educativo, aún más. Hasta ahora ese nivel de personalización requería herramientas como HeyGen o Synthesia con configuración y coste significativos.

Veo 3 ya había dado el salto en 2025 a la generación de vídeo con audio nativo sincronizado. Omni va un paso más allá al unificar esa capacidad generativa con el razonamiento de Gemini, lo que en la práctica significa que el modelo entiende el contexto de lo que le pides con más profundidad y puede hacer modificaciones complejas sin perder la coherencia narrativa entre escenas.

Coherencia de personajes y flujo conversacional

Una de las limitaciones persistentes de los modelos de generación de vídeo es la consistencia: el personaje cambia de cara entre escenas, el fondo se transforma sin aviso, la cámara pierde continuidad. Gemini Omni Flash, según Google, mejora significativamente la coherencia de identidad y voz a lo largo de una producción completa.

Esto importa para los casos de uso que más crecen: series de contenido, vídeos educativos por capítulos, formaciones corporativas. Si el presentador virtual cambia de aspecto cada dos minutos, la credibilidad del vídeo cae. Nano Banana 2, el modelo de imágenes de Google, ya había introducido en abril coherencia de sujetos para imágenes usando datos de Google Photos. Omni extiende esa lógica al vídeo con la ventaja de que el razonamiento de Gemini puede mantener el contexto de la producción a lo largo de una sesión de edición.

El flujo conversacional es la otra novedad. En lugar de generar, descargar, revisar y repetir el prompt desde cero, Omni permite que la edición sea un diálogo: «aplica un tono más cálido a las escenas de interior», «elimina el sonido ambiental del minuto 2», «haz que el presentador mire a cámara». Eso reduce de horas a minutos la iteración creativa en producciones sencillas.

Disponibilidad y acceso

Gemini Omni Flash está activo desde hoy:

En la app Gemini para suscriptores AI Plus, Pro y Ultra en todo el mundo
En Google Flow para suscriptores AI globalmente
En YouTube Shorts para creadores
Desarrolladores y empresas: vía APIs en las próximas semanas

Google ha especificado que Omni generará también imágenes y texto en futuras actualizaciones, empezando por vídeo. No hay fecha para esas expansiones.

Mi valoración

Gemini Omni Flash llega en un momento en que el mercado de generación de vídeo con IA ya tiene competidores serios: Runway Gen-3, Sora de OpenAI, Kling de Kuaishou. Lo que diferencia a Google no es la calidad bruta del clip generado —que en demos siempre luce bien— sino la integración: fluye directamente desde la app Gemini, se exporta a Google Flow para edición avanzada, y llega a YouTube Shorts de manera nativa. Esa fricción cero para publicar es una ventaja que ningún competidor puede replicar sin tener una red social de vídeo propia.

Lo que me genera más dudas es la calidad real fuera de las demos. Las demostraciones de I/O están controladas. La prueba real llegará cuando creadores reales produzcan con ella contenido no guionizado, con actores de apariencia variada, en condiciones de luz complicadas. La coherencia de personajes es el talón de Aquiles histórico de estos sistemas y Google lo sabe. Si Omni la resuelve de verdad, y no solo en condiciones de laboratorio, cambia el mercado.

Mi predicción a 12 meses: Gemini Omni Flash se convierte en la herramienta de generación de vídeo para marketing de pequeña empresa y educación online. Para producción cinematográfica seria, todavía quedan límites que los humanos tendrán que resolver.

Preguntas frecuentes

¿Gemini Omni reemplaza a Veo?

No exactamente. Veo sigue siendo el modelo de referencia para generación de vídeo en la API de Google. Gemini Omni Flash integra capacidades de generación de vídeo dentro del ecosistema Gemini con razonamiento multimodal. Funcionalmente, Omni puede entenderse como Veo con inteligencia de Gemini integrada, orientado a usuarios finales; Veo sigue disponible para desarrolladores en la API y en Vertex AI.

¿Cuánto cuesta usar Gemini Omni?

Está incluido en los planes AI Plus, Pro y Ultra de Google. No hay precio independiente publicado para uso individual. Para empresas y desarrolladores, los precios en la API se anunciarán cuando esté disponible en las próximas semanas.

¿Puedo usar Gemini Omni en España?

Sí. La versión Flash de Gemini Omni está disponible globalmente para suscriptores de AI Plus, Pro y Ultra desde hoy en la app Gemini y en Google Flow.