Gemini 3.5 Flash: el modelo más rápido del mundo de frontera ya cuesta menos de la mitad que sus rivales

Google ha lanzado hoy Gemini 3.5 Flash, el primer modelo de su nueva familia 3.5, y la propuesta es clara: inteligencia de frontera a una velocidad que ningún otro modelo comparable iguala, y por menos de la mitad de su precio. Lo cuenta el equipo de Google DeepMind en el blog oficial este 19 de mayo de 2026. 3.5 Flash produce cuatro veces más tokens por segundo que otros modelos de frontera, superando a Gemini 3.1 Pro en prácticamente todos los benchmarks relevantes para tareas agénticas: Terminal-Bench 2.1 (76,2%), GDPval-AA (1.656 Elo), MCP Atlas (83,6%) y CharXiv Reasoning multimodal (84,2%). Es el primer modelo en ocupar el cuadrante superior derecho del índice de Artificial Analysis —alta inteligencia y alta velocidad— de forma simultánea. Está disponible desde hoy para todos los usuarios y desarrolladores.

Qué cambia respecto a la generación anterior

El salto desde Gemini 3.1 Pro no es incremental. En las métricas de codificación agéntica, 3.5 Flash ya supera al modelo Pro anterior en GDPval-AA, el benchmark que evalúa tareas reales del mundo del desarrollo de software. Para tareas largas y de múltiples pasos —que son exactamente las que definen el trabajo agéntico—, 3.5 Flash completa en horas lo que antes requería días a un desarrollador o semanas a un auditor.

El equipo de Google lo ha probado internamente con una métrica muy concreta: Antigravity, su plataforma de desarrollo basada en agentes. En marzo procesaban 500.000 millones de tokens diarios en sus herramientas internas de IA; ahora están en más de 3 billones diarios, duplicándose cada pocas semanas. Ese bucle de retroalimentación —más tokens, más datos para mejorar el modelo— ha acelerado el desarrollo de la versión 3.5 de manera significativa.

Gemini 3, lanzado hace unos meses, ya era el modelo más aclamado por los desarrolladores gracias a sus capacidades multimodales y de razonamiento profundo en la versión Pro. Flash lleva ese potencial a una categoría de velocidad y precio que lo convierte en el motor por defecto de aplicaciones de producción.

El argumento económico que Google quiere que oigas

Google ha hecho el cálculo en público: las empresas más grandes están procesando alrededor de 1 billón de tokens al día. Si transfieren el 80% de su carga de trabajo desde otros modelos de frontera a Gemini 3.5 Flash —que cuesta menos de la mitad—, ahorran más de 1.000 millones de dólares al año. Y algunas de esas empresas ya están agotando sus presupuestos anuales de tokens en mayo.

El número es intencionalmente grande y atractivo para CFOs. Pero tiene lógica técnica detrás: no todas las tareas necesitan el modelo más inteligente disponible. Para inferencia masiva, clasificación, resúmenes, generación de código rutinaria o subagentes especializados, un modelo 4x más rápido y menos costoso que ejecuta en el cuadrante de frontera es la elección racional. Shopify ya está corriendo subagentes en paralelo con 3.5 Flash para análisis de previsión de crecimiento de comerciantes a escala global.

Gemini Nano 4, la variante on-device para Android, también demostró este año que la apuesta de velocidad de Google va en serio en todos los segmentos: 4x más rápido que su predecesor y con un 60% menos de consumo de batería.

Dónde está disponible y qué viene

Gemini 3.5 Flash está disponible desde hoy en:

La app Gemini y el AI Mode en Google Search, para todos los usuarios del mundo
Google Antigravity, Gemini API en AI Studio y Android Studio
Gemini Enterprise Agent Platform y Gemini Enterprise

En cuanto a Gemini 3.5 Pro: está en uso interno en Google, ya muestra mejoras sustanciales, y llegará el mes que viene. La empresa no ha dado fecha exacta ni benchmarks públicos todavía.

Mi valoración

Tras revisar los benchmarks presentados y contrastarlos con evaluaciones independientes de Artificial Analysis, el posicionamiento de 3.5 Flash es real: no hay otro modelo que combine ese nivel de inteligencia con esa velocidad de generación. Lo que más me convence es la coherencia del argumento económico: no es solo «nuestro modelo es mejor», sino «nuestro modelo hace que el tuyo sea dos órdenes de magnitud más rentable si lo usas bien». Eso es un mensaje que llega a los equipos de finanzas de las grandes empresas, no solo a los ingenieros de ML.

Lo que me preocupa es la presión que esto genera sobre los competidores. Claude Opus 4.7 y GPT-5.5 aparecen en el mismo gráfico de comparación que publica Google, lo cual es habitual, pero posicionarlos en cuadrantes de menor velocidad con benchmarks seleccionados por el propio fabricante requiere siempre lectura crítica. La velocidad de tokens/segundo depende mucho de la infraestructura de inferencia y el tipo de carga. El modelo más rápido en las pruebas de Google puede no ser el más rápido en tu caso de uso específico.

Lo estructuralmente más relevante: Gemini 3.5 Flash se convierte en el modelo por defecto de la búsqueda de Google para mil millones de usuarios. Eso no es un anuncio de desarrolladores; es una decisión que afecta a cómo la mitad de internet encontrará información a partir de hoy. Las implicaciones para los medios de comunicación y el SEO son las mismas que ya empezamos a ver con el despliegue de AI Mode en meses pasados, pero amplificadas.

Preguntas frecuentes

¿Cuándo llega Gemini 3.5 Pro?

Google ha confirmado que 3.5 Pro se está usando internamente y llega el mes próximo, en junio de 2026. No hay fecha exacta. En benchmarks internos ya muestra mejoras significativas sobre 3.5 Flash, pero la empresa no ha publicado aún comparativas públicas detalladas.

¿Qué diferencia hay entre Gemini 3.5 Flash y el Flash anterior?

El salto fundamental está en capacidades agénticas: 3.5 Flash puede manejar tareas de múltiples pasos y largo horizonte temporal que antes requerían el modelo Pro. También supera al anterior Flash en comprensión multimodal y codificación. Y lo hace siendo 4x más rápido en tokens por segundo que otros modelos de frontera comparables.

¿Está disponible en España desde hoy?

Sí. Gemini 3.5 Flash está disponible para todos los usuarios de la app Gemini globalmente desde hoy, y en AI Mode de la Búsqueda de Google también desde hoy. Los accesos vía API en AI Studio y Antigravity también están abiertos para desarrolladores en España.