Microsoft lanza MAI-Image-2-Efficient: su modelo de imagen un 41% más barato, 22% más rápido y con cuatro veces más throughput que el anterior

Microsoft acaba de anunciar MAI-Image-2-Efficient, la variante optimizada de su modelo de generación de imágenes MAI-Image-2 lanzado hace apenas dos semanas. La operación tiene un mensaje doble: uno técnico (bajar coste y latencia sin perder calidad) y otro estratégico (demostrar que Microsoft puede construir su pila completa de IA sin depender de OpenAI). Disponible desde hoy en Microsoft Foundry y MAI Playground sin lista de espera, el modelo se comercializa a 5 dólares por millón de tokens de texto y 19,50 dólares por millón de tokens de imagen, lo que supone una reducción del 41% respecto al precio de MAI-Image-2 (que cuesta 5 y 33 dólares en los mismos tramos). Microsoft afirma que funciona un 22% más rápido que su hermano mayor y alcanza cuatro veces más throughput por GPU, medido sobre hardware NVIDIA H100 a resolución 1024×1024.

Dos modelos para dos públicos: precisión vs. throughput

El posicionamiento es explícito. Microsoft propone a sus clientes empresariales una estrategia de dos modelos: el MAI-Image-2 original queda como «instrumento de precisión» para campañas publicitarias, fotorrealismo complejo, ilustración detallada o tipografía intrincada dentro de imagen. El Image-2-Efficient (o «Image-2e» como lo llaman internamente) se dirige a flujos de trabajo de alto volumen: plataformas de e-commerce que generan miles de miniaturas de producto al día, equipos de marketing que necesitan moodboards rápidos, chatbots que generan imágenes en tiempo real durante la conversación. La comparación es la habitual del mercado: es el equivalente a los tiers que ya usan OpenAI (GPT mini), Anthropic (Haiku-Sonnet-Opus) o Google (Flash-Pro), aplicado por primera vez con claridad al segmento de generación de imagen. Microsoft añade que el modelo es un 40% más rápido en promedio que modelos competidores como Gemini 3.1 Flash (con razonamiento alto), Gemini 3.1 Flash Image y Gemini 3 Pro Image, medido con latencia p50 vía API de AI Studio.

El subtexto: Microsoft sigue alejándose de OpenAI

El subtexto empresarial es más interesante que las cifras. El 17 de marzo, Satya Nadella anunció una reorganización profunda que unificó los equipos de Copilot consumer y comercial bajo Jacob Andreou, ascendido a EVP de Copilot y reportando directamente al CEO. Nadella usó en ese comunicado una frase reveladora: la empresa «dobla la apuesta» por su misión de superinteligencia con talento y computación capaces de construir modelos «con impacto real en producto, en términos de evaluaciones, reducción de COGS y avance de la frontera». Ese «COGS reduction» (coste de los bienes vendidos) es jerga financiera, pero señala el motor real de lanzamientos como este: cada dólar que Microsoft ahorra usando sus propios modelos en vez de licenciar los de OpenAI va directamente al margen bruto. Con Copilot procesando miles de millones de peticiones al año, ese ahorro es significativo. La cita elegida para el comunicado oficial va en la misma línea: Rob Reilly, Global Chief Creative Officer de WPP (una de las mayores agencias creativas del mundo), describe MAI-Image-2 como «plataforma que responde al matiz de la dirección creativa y respeta el oficio de generar imágenes listas para campaña».

La cadencia MAI: cuatro modelos en dos semanas

La relación entre Microsoft y OpenAI lleva meses enfriándose visiblemente, y el ritmo de lanzamientos internos lo confirma. En dos semanas, la división MAI ha lanzado MAI-Image-2, MAI-Voice-1, MAI-Transcribe-1 y ahora Image-2-Efficient. Este último es el lanzamiento más rápido tras una publicación previa que se recuerda del equipo. La dirección es clara: Microsoft quiere que Copilot pueda funcionar —técnicamente y económicamente— sin pasar por la API de OpenAI. La integración de Copilot Cowork y las siguientes oleadas de agentes dependerán de que esos modelos sean lo suficientemente buenos y baratos como para sostener el producto a escala. La parte honesta del anuncio es que, según reconocía el análisis de VentureBeat, MAI-Image-2 arrastra limitaciones no triviales en la interfaz de usuario (30 segundos entre generaciones, tope diario de 15 imágenes, solo relación 1:1, sin image-to-image, filtros agresivos que bloquean prompts inocuos). El comunicado no aclara si Efficient hereda o relaja esas restricciones. Los clientes vía API probablemente tendrán otros límites.

El movimiento posterior del mercado

Actualización a 25 de abril de 2026: tras el lanzamiento, el ranking de precios en generación de imagen empresarial ha quedado liderado por Microsoft Image-2e (19,50 USD/millón de tokens de imagen) frente a Gemini 3.1 Flash Image (24 USD), Flux 1.1 Pro Ultra (28 USD) y MAI-Image-2 (33 USD). VentureBeat ha publicado además un análisis señalando que la versión Efficient hereda parcialmente las restricciones de UI del original (cuotas, sin image-to-image), lo que limita su atractivo para creadores frente a la opción API pura.

El otro frente que se ha movido es el de partners. WPP ha confirmado el uso del modelo para sus campañas de e-commerce a escala global y JLR Maserati lo está probando para configuradores de coche en tiempo real. Microsoft ha programado para mayo otra ronda de actualizaciones MAI, con foco en vídeo y voz, según filtraciones a The Information.

Mi valoración

lo importante de MAI-Image-2-Efficient no es la mejora técnica, que es exactamente la esperable (un modelo destilado, más pequeño, optimizado para throughput). Lo importante es la cadencia. Microsoft está demostrando que su laboratorio interno puede producir variantes de modelos en ventanas de dos semanas, lo que significa que la dependencia de OpenAI como único proveedor de modelos estrella tiene los días contados. Para el mercado de generación de imagen empresarial, el efecto inmediato es una guerra de precios: 19,50 dólares por millón de tokens de imagen es agresivo, y obliga a Google (Gemini 3 Pro Image) y a Black Forest Labs (Flux), Freepik AI Suite con Spaces a responder. Para el usuario final de Copilot, el efecto se notará en menos esperas al generar imágenes en PowerPoint o Bing, porque Microsoft puede servir más peticiones con la misma infraestructura. Para OpenAI, cada lanzamiento de MAI es un recordatorio de que su principal cliente ya no está comprometido con ser cliente para siempre. Eso explica por qué OpenAI se está lanzando a adquisiciones de empresas verticales: necesita construir producto propio antes de que Microsoft decida que ya no lo necesita como proveedor.

Preguntas frecuentes

¿Qué es MAI-Image-2-Efficient?

Una variante optimizada del modelo de generación de imagen de Microsoft, diseñada para ser más rápida (22%) y más barata (41%) que el modelo original, con calidad equivalente para la mayoría de usos.

¿Cuánto cuesta?

5 dólares por millón de tokens de texto y 19,50 dólares por millón de tokens de imagen. El modelo original cuesta 33 dólares en el segundo tramo.

¿Dónde se puede usar?

En Microsoft Foundry y MAI Playground desde hoy, sin lista de espera. Los desarrolladores pueden acceder mediante la API de Foundry.