Microsoft lanza tres modelos fundacionales propios bajo la marca MAI: voz, transcripción e imagen, su mayor paso para depender menos de OpenAI

Microsoft AI (MAI), el laboratorio de investigación dirigido por Mustafa Suleyman, ha presentado tres modelos fundacionales propios el 2 de abril: MAI-Transcribe-1 (transcripción de voz a texto), MAI-Voice-1 (generación de audio) y MAI-Image-2 (generación de imágenes). Es la primera salida significativa del equipo MAI Superintelligence creado en noviembre de 2025, y la señal más clara hasta la fecha de que Microsoft quiere reducir su dependencia de OpenAI para las capacidades de IA centrales.

Los tres modelos están disponibles a través de Microsoft Foundry y MAI Playground:

MAI-Transcribe-1 transcribe voz a texto en los 25 idiomas más usados del mundo, opera 2,5 veces más rápido que Azure Fast (la oferta anterior de Microsoft), y está específicamente entrenado para entornos ruidosos del mundo real (call centers, salas de reuniones, oficinas open-plan). Microsoft afirma que ocupa el primer puesto global en el benchmark FLEURS Word Error Rate, superando al Whisper de OpenAI y a las capacidades de audio de Gemini. Precio: 0,36$/hora.

MAI-Voice-1 genera 60 segundos de audio en un solo segundo de cómputo y permite crear voces personalizadas a partir de pocos segundos de muestra de audio. Precio: 22$ por millón de caracteres.

MAI-Image-2 genera imágenes con énfasis en iluminación natural, tonos de piel realistas y texto legible dentro de la imagen. Está en el top 3 del leaderboard de Arena.ai, dobla la velocidad de su predecesor sin pérdida de calidad y se está desplegando en Bing, PowerPoint y Copilot. Precio: 5$ por millón de tokens de entrada de texto y 33$ por millón de tokens de salida de imagen.

El contexto importa: Microsoft ha invertido más de 13.000 millones de dólares en OpenAI desde 2019, y GPT sigue siendo el motor principal de Copilot. Pero el acuerdo renegociado en 2025 eliminó las restricciones contractuales que impedían a Microsoft construir sus propios modelos de propósito general. La empresa planea desarrollar un LLM frontier propio para 2027. Suleyman, en el comunicado, lo enmarca bajo el concepto «Humanist AI»: «Estamos construyendo IA centrada en humanos, optimizada para cómo las personas se comunican realmente, entrenada para uso práctico».

Mi valoración: los tres modelos no son la jugada principal de Microsoft. La jugada es construir, paso a paso, una alternativa interna a OpenAI sin romper el matrimonio. Voz, transcripción e imagen son áreas donde la diferenciación entre proveedores es relativamente menor (todos llegan a un nivel parecido) y donde Microsoft puede ofrecer precios agresivos y latencia baja apoyándose en Azure. El verdadero examen llega en 2027, cuando Microsoft tenga que demostrar si puede competir con un modelo de razonamiento general frente a GPT-5, Claude y Gemini. Mientras tanto, la lectura para clientes empresariales es clara: si ya estás en Azure, Microsoft te ofrece ahora una pila completa de IA sin tener que negociar con un tercero.

Preguntas frecuentes

¿Cuáles son los tres modelos? MAI-Transcribe-1 (transcripción voz a texto, 25 idiomas), MAI-Voice-1 (generación de audio, 60 seg en 1 seg) y MAI-Image-2 (generación de imágenes). ¿Significa que Microsoft rompe con OpenAI? No. Microsoft mantiene su inversión y GPT sigue siendo el motor de Copilot. Pero MAI marca el inicio de una estrategia de diversificación. ¿Dónde se pueden usar? A través de Microsoft Foundry y MAI Playground. MAI-Image-2 también se está desplegando en Bing, PowerPoint y Copilot.