Microsoft acaba de anunciar MAI-Image-2-Efficient, la variante optimizada de su modelo de generación de imágenes MAI-Image-2 lanzado hace apenas dos semanas. La operación tiene un mensaje doble: uno técnico (bajar coste y latencia sin perder calidad) y otro estratégico (demostrar que Microsoft puede construir su pila completa de IA sin depender de OpenAI). Disponible desde hoy en Microsoft Foundry y MAI Playground sin lista de espera, el modelo se comercializa a 5 dólares por millón de tokens de texto y 19,50 dólares por millón de tokens de imagen, lo que supone una reducción del 41% respecto al precio de MAI-Image-2 (que cuesta 5 y 33 dólares en los mismos tramos). Microsoft afirma que funciona un 22% más rápido que su hermano mayor y alcanza cuatro veces más throughput por GPU, medido sobre hardware NVIDIA H100 a resolución 1024×1024.
El posicionamiento es explícito. Microsoft propone a sus clientes empresariales una estrategia de dos modelos: el MAI-Image-2 original queda como «instrumento de precisión» para campañas publicitarias, fotorrealismo complejo, ilustración detallada o tipografía intrincada dentro de imagen. El Image-2-Efficient (o «Image-2e» como lo llaman internamente) se dirige a flujos de trabajo de alto volumen: plataformas de e-commerce que generan miles de miniaturas de producto al día, equipos de marketing que necesitan moodboards rápidos, chatbots que generan imágenes en tiempo real durante la conversación. La comparación es la habitual del mercado: es el equivalente a los tiers que ya usan OpenAI (GPT mini), Anthropic (Haiku-Sonnet-Opus) o Google (Flash-Pro), aplicado por primera vez con claridad al segmento de generación de imagen. Microsoft añade que el modelo es un 40% más rápido en promedio que modelos competidores como Gemini 3.1 Flash (con razonamiento alto), Gemini 3.1 Flash Image y Gemini 3 Pro Image, medido con latencia p50 vía API de AI Studio.
El subtexto empresarial es más interesante que las cifras. El 17 de marzo, Satya Nadella anunció una reorganización profunda que unificó los equipos de Copilot consumer y comercial bajo Jacob Andreou, ascendido a EVP de Copilot y reportando directamente al CEO. Nadella usó en ese comunicado una frase reveladora: la empresa «dobla la apuesta» por su misión de superinteligencia con talento y computación capaces de construir modelos «con impacto real en producto, en términos de evaluaciones, reducción de COGS y avance de la frontera». Ese «COGS reduction» (coste de los bienes vendidos) es jerga financiera, pero señala el motor real de lanzamientos como este: cada dólar que Microsoft ahorra usando sus propios modelos en vez de licenciar los de OpenAI va directamente al margen bruto. Con Copilot procesando miles de millones de peticiones al año, ese ahorro es significativo. La cita elegida para el comunicado oficial va en la misma línea: Rob Reilly, Global Chief Creative Officer de WPP (una de las mayores agencias creativas del mundo), describe MAI-Image-2 como «plataforma que responde al matiz de la dirección creativa y respeta el oficio de generar imágenes listas para campaña».
La relación entre Microsoft y OpenAI lleva meses enfriándose visiblemente, y el ritmo de lanzamientos internos lo confirma. En dos semanas, la división MAI ha lanzado MAI-Image-2, MAI-Voice-1, MAI-Transcribe-1 y ahora Image-2-Efficient. Este último es el lanzamiento más rápido tras una publicación previa que se recuerda del equipo. La dirección es clara: Microsoft quiere que Copilot pueda funcionar —técnicamente y económicamente— sin pasar por la API de OpenAI. La integración de Copilot Cowork y las siguientes oleadas de agentes dependerán de que esos modelos sean lo suficientemente buenos y baratos como para sostener el producto a escala. La parte honesta del anuncio es que, según reconocía el análisis de VentureBeat, MAI-Image-2 arrastra limitaciones no triviales en la interfaz de usuario (30 segundos entre generaciones, tope diario de 15 imágenes, solo relación 1:1, sin image-to-image, filtros agresivos que bloquean prompts inocuos). El comunicado no aclara si Efficient hereda o relaja esas restricciones. Los clientes vía API probablemente tendrán otros límites.
Mi valoración: lo importante de MAI-Image-2-Efficient no es la mejora técnica, que es exactamente la esperable (un modelo destilado, más pequeño, optimizado para throughput). Lo importante es la cadencia. Microsoft está demostrando que su laboratorio interno puede producir variantes de modelos en ventanas de dos semanas, lo que significa que la dependencia de OpenAI como único proveedor de modelos estrella tiene los días contados. Para el mercado de generación de imagen empresarial, el efecto inmediato es una guerra de precios: 19,50 dólares por millón de tokens de imagen es agresivo, y obliga a Google (Gemini 3 Pro Image) y a Black Forest Labs (Flux) a responder. Para el usuario final de Copilot, el efecto se notará en menos esperas al generar imágenes en PowerPoint o Bing, porque Microsoft puede servir más peticiones con la misma infraestructura. Para OpenAI, cada lanzamiento de MAI es un recordatorio de que su principal cliente ya no está comprometido con ser cliente para siempre. Eso explica por qué OpenAI se está lanzando a adquisiciones de empresas verticales: necesita construir producto propio antes de que Microsoft decida que ya no lo necesita como proveedor.
Preguntas frecuentes
¿Qué es MAI-Image-2-Efficient? Una variante optimizada del modelo de generación de imagen de Microsoft, diseñada para ser más rápida (22%) y más barata (41%) que el modelo original, con calidad equivalente para la mayoría de usos. ¿Cuánto cuesta? 5 dólares por millón de tokens de texto y 19,50 dólares por millón de tokens de imagen. El modelo original cuesta 33 dólares en el segundo tramo. ¿Dónde se puede usar? En Microsoft Foundry y MAI Playground desde hoy, sin lista de espera. Los desarrolladores pueden acceder mediante la API de Foundry.
