Gemini Embedding 2 llega a disponibilidad general: un solo modelo para texto, imágenes, vídeo, audio y PDFs, y un lío de precios frente a OpenAI

Google ha hecho general availability este 22 de abril su modelo Gemini Embedding 2 (antes gemini-embedding-2-preview), disponible ahora desde la Gemini API y Vertex AI. Es el primer modelo embedding nativo multimodal de Google: mapea texto, imágenes, vídeo, audio y PDFs al mismo espacio vectorial de 3.072 dimensiones con una sola llamada API. El lanzamiento original en preview fue el 10 de marzo de 2026, y tras seis semanas de early access empresarial pasa a producción estable. El precio se mantiene en 0,20 dólares por millón de tokens de texto (0,10 dólares en modo batch), con tier gratuito para evaluación. El blog de Google publica los detalles, y Buildfastwithai ha publicado el análisis comparativo más detallado del sector.

Los números son fuertes. En el benchmark MTEB English obtiene 68,32 puntos, liderando con un margen de 5,09 puntos sobre el siguiente competidor. En MTEB Code alcanza 74,66, compitiendo directamente con Voyage code-3. Y en retrieval de vídeo (benchmarks Vatex, MSR-VTT, Youcook2) llega a 68,8 frente a los 60,3 de Amazon Nova 2 y los 55,2 de Voyage Multimodal 3.5, una ventaja considerable en un dominio donde no hay modelo comercial equivalente. Soporta más de 100 idiomas y una ventana de contexto de 8.192 tokens.

La arquitectura usa Matryoshka Representation Learning, una técnica que permite flexibilidad de dimensiones desde 128 hasta 3.072 sobre un solo embedding generado. Google recomienda 768 como sweet spot para producción: mantiene calidad cercana al máximo con una cuarta parte del coste de almacenamiento. Es especialmente relevante para RAG a gran escala donde el tamaño del índice vectorial se traduce directamente en factura de base de datos.

Los casos de producción son los que más hablan a favor del modelo. Sparkonomy, una plataforma para creadores, reportó una reducción del 70% en latencia tras reemplazar un pipeline de tres modelos especializados por una sola llamada a Gemini Embedding 2. Everlaw, plataforma de descubrimiento legal, consiguió un 20% de mejora en recall para búsquedas entre documentos legales heterogéneos (mezcla de PDFs escaneados, documentos Word, emails, hojas de cálculo). En ambos casos, el beneficio no es solo la calidad del embedding, sino la simplificación arquitectónica: menos modelos que entrenar, menos pipelines que mantener, menos espacios vectoriales que alinear.

El contexto competitivo es el que pone cada cosa en su sitio. Para texto puro, OpenAI text-embedding-3-large sigue siendo una alternativa sólida a 0,13 dólares por millón de tokens (un 35% más barato) y scores MTEB competitivos. Cohere Embed v4 ofrece una ventana de contexto mayor (128.000 tokens frente a los 8.192 de Gemini), útil para indexar documentos muy largos sin chunking. Voyage code-3 sigue liderando en búsqueda específica de código. La decisión de qué embedding usar depende del caso: cross-modal real → Gemini Embedding 2; texto puro sensible a precio → OpenAI; documentos largos → Cohere; código especializado → Voyage. El movimiento de Google encaja con el plan global que Pichai presentó en el AI Impact Summit 2026, donde reunió a aliados y gobiernos para escalar IA aplicada a infraestructuras, ciencia y clima. El hueco real lo marca vídeo y audio: no hay alternativa comercial que los cubra nativamente.

Mi valoración: el paso de preview a GA tiene un significado técnico claro. Preview significaba «puedes probarlo pero no lo uses en producción sin red de seguridad». GA significa «está listo, con SLAs, con cuota, con soporte». Para empresas que tenían pipelines paralelos (CLIP para imágenes, Whisper para audio, text-embedding-3 para texto) y que habían evaluado Gemini Embedding 2 en preview, esta es la luz verde para migrar. La migración no es gratis: implica re-embedding completo de corpus existentes, lo que en bases vectoriales grandes puede costar miles o decenas de miles de dólares solo en ejecución. Pero para nuevos proyectos con requisitos multimodales, Gemini Embedding 2 es la opción por defecto. La apuesta de Google aquí encaja con su estrategia de integración vertical total: modelo propio (Gemini 3), embedding propio (Embedding 2), infraestructura propia (TPUs), interfaz propia (Chrome). Cuanto más completa sea la pila de Google, mayor la ventaja competitiva y mayor el riesgo de vendor lock-in para los clientes. Y una nota para desarrolladores: el espacio vectorial de gemini-embedding-001 (el modelo anterior) es incompatible con gemini-embedding-2. Si migras, tienes que re-indexar todo. Planifica el coste antes de confirmar la migración.

Preguntas frecuentes

¿Puedo usarlo gratis para probarlo? Sí. Google incluye un tier gratuito en la Gemini API suficiente para evaluación y desarrollo. Una vez en producción, el precio es 0,20 dólares por millón de tokens de texto, 0,10 dólares por millón en modo batch. ¿Cómo migro desde el modelo anterior? Gemini Embedding 2 no es compatible con el espacio vectorial de gemini-embedding-001. Para migrar tienes que re-embedear todo el corpus, lo que en bases grandes puede ser un proyecto significativo en coste y tiempo. ¿Qué modalidades soporta además de texto? Imágenes, vídeo, audio y documentos (incluyendo PDFs). Todo se mapea al mismo espacio vectorial de 3.072 dimensiones (con opción de truncar vía Matryoshka a 768, 256 o 128), lo que permite búsqueda cross-modal directa.