Microsoft AI (MAI), el laboratorio de investigación dirigido por Mustafa Suleyman, presentó tres modelos fundacionales propios el 2 de abril de 2026: MAI-Transcribe-1 (transcripción de voz a texto), MAI-Voice-1 (generación de audio) y MAI-Image-2 (generación de imágenes). Es la primera salida significativa del equipo MAI Superintelligence creado en noviembre de 2025, y la señal más clara hasta la fecha de que Microsoft quiere reducir su dependencia de OpenAI tras la reconfiguración de la alianza en 2025 para las capacidades de IA centrales.
Qué hace cada uno de los tres modelos MAI
Los tres modelos están disponibles desde el 2 de abril a través de Microsoft Foundry y MAI Playground. MAI-Transcribe-1 transcribe voz a texto en los 25 idiomas más usados del mundo, opera 2,5 veces más rápido que Azure Fast (la oferta anterior de Microsoft) y está específicamente entrenado para entornos ruidosos del mundo real (call centers, salas de reuniones, oficinas open-plan). Microsoft afirma que ocupa el primer puesto global en el benchmark FLEURS Word Error Rate, superando a Whisper de OpenAI y Gemini de Google. Su precio de partida es de 0,36 dólares por hora.
MAI-Voice-1 es un sintetizador de voz de alta fidelidad capaz de producir 60 segundos de audio expresivo en menos de un segundo sobre una sola GPU. Su tarifa arranca en 22 dólares por cada millón de caracteres procesados. MAI-Image-2 sucede al MAI-Image-1 que Microsoft estrenó como su primer generador de imágenes propio en noviembre de 2025 y debuta en el puesto número 3 del leaderboard de Arena.ai, sin pérdida de calidad respecto a la generación previa. Se cobra a 5 dólares por millón de tokens de entrada de texto y 33 dólares por millón de tokens de salida de imagen, y se está desplegando ya en Bing, PowerPoint y Copilot.
Por qué Microsoft acelera los modelos propios
El contexto importa. Microsoft ha invertido más de 13.000 millones de dólares (unos 12.200 millones de euros al cambio actual) en OpenAI desde 2019, y GPT sigue siendo el motor principal de Copilot. Pero el acuerdo renegociado en 2025 eliminó las restricciones contractuales que impedían a Microsoft construir sus propios modelos de propósito general. La empresa ha confirmado que planea desarrollar un LLM frontier propio para 2027.
Suleyman, en el comunicado, lo enmarca bajo el concepto Humanist AI: estamos construyendo IA centrada en humanos, optimizada para cómo las personas se comunican realmente, entrenada para uso práctico. Llevo cubriendo la alianza Microsoft-OpenAI desde el primer cheque de 2019, y este es el primer paso visible que reduce de verdad la dependencia técnica, no solo la narrativa. La diferencia con el primer intento (Phi en 2023, modelos pequeños) es de orden de magnitud: aquí Microsoft sí compite cara a cara con Whisper, ElevenLabs e Imagen 3 en sus propios benchmarks.
Encaje con la estrategia Copilot y Foundry
El movimiento conecta directamente con la nueva ofensiva de productividad anunciada con Microsoft 365 Copilot Wave 3 y el plan E7 de 99 dólares al mes para empresas. Para clientes empresariales el mensaje es claro: Microsoft puede ofrecer ahora una pila completa de IA en Azure sin tener que negociar con un tercero, y los modelos MAI se integran nativamente en Foundry, el catálogo unificado donde ya conviven los modelos de OpenAI, Mistral, Cohere y Meta.
El precio de MAI-Transcribe-1 (50 por ciento más barato que las alternativas líderes según Microsoft) es la pieza más relevante del lanzamiento para la base instalada de Office y Teams: cualquier empresa con miles de horas mensuales de transcripción puede cambiar a MAI-Transcribe-1 sin tocar arquitectura.
Actualización a 26 de abril de 2026
Veintitrés días después del lanzamiento, MAI-Image-2 se ha asentado en el top 5 de Arena.ai compitiendo de tú a tú con Imagen 3 de Google y Stable Diffusion 4. Microsoft confirmó la disponibilidad regional en la Unión Europea con servidores en Países Bajos y Suecia, esquivando la fricción habitual con la AI Act. Foundry registró según la propia compañía más de 60.000 desarrolladores activos probando los tres modelos durante las primeras dos semanas. La hoja de ruta declarada para el segundo semestre incluye una versión de razonamiento general (MAI-Reason-1) y un modelo multimodal de larga ventana de contexto, ambos como antesala del LLM frontier propio prometido para 2027. La integración con Copilot Wave 3 dentro del plan E7 de empresa ya está activa por defecto en los tenants nuevos.
Mi valoración
Los tres modelos no son la jugada principal de Microsoft. La jugada es construir, paso a paso, una alternativa interna a OpenAI sin romper el matrimonio. Voz, transcripción e imagen son áreas donde la diferenciación entre proveedores es razonable y donde Microsoft puede demostrar ventaja sin exponerse a la prueba más cara. Lo que de verdad va a importar es 2027, cuando MAI tenga que demostrar si puede competir con un modelo de razonamiento general frente a GPT-5, Claude y Gemini.
Mientras tanto, la lectura para clientes empresariales es clara: si ya estás en Azure, Microsoft te ofrece ahora una pila completa de IA sin tener que negociar con un tercero. Si encima Suleyman acierta con su plan de chips propios y reduce el coste por token, Microsoft cierra el círculo: no solo dueña del modelo, también de la inferencia. Esa es la guerra real, y empieza en estos tres lanzamientos aparentemente discretos.
Preguntas frecuentes
¿Cuáles son los tres modelos MAI?
MAI-Transcribe-1 (transcripción voz a texto en 25 idiomas, desde 0,36 dólares por hora), MAI-Voice-1 (generación de audio, 60 segundos de voz expresiva en menos de 1 segundo en una sola GPU) y MAI-Image-2 (generación de imágenes, debutó en el top 3 de Arena.ai).
¿Significa que Microsoft rompe con OpenAI?
No. Microsoft mantiene su inversión de más de 13.000 millones de dólares y GPT sigue siendo el motor principal de Copilot. Pero MAI marca el inicio de una estrategia de diversificación pública con LLM frontier propio prometido para 2027.
¿Dónde se pueden usar los modelos MAI?
A través de Microsoft Foundry y MAI Playground, con disponibilidad regional confirmada en la Unión Europea desde abril de 2026. MAI-Image-2 también se está desplegando dentro de Bing, PowerPoint y Copilot para uso directo.
