MiniMax M2.7: el modelo de IA chino que se mejora a sí mismo (y debería preocupar a OpenAI)

La startup china MiniMax acaba de lanzar M2.7, un modelo de inteligencia artificial propietario capaz de optimizar su propio código y gestionar entre el 30% y el 50% de su flujo de trabajo de investigación sin intervención humana. MiniMax M2.7 es lo que se conoce como un modelo autoevolutivo (self-evolving): un sistema de IA que no se limita a responder preguntas, sino que analiza sus propios fallos, modifica su infraestructura de entrenamiento y mejora iterativamente su rendimiento. En el benchmark SWE-Bench Pro —una prueba estándar que evalúa la capacidad de resolver problemas reales de ingeniería de software— ha alcanzado un 56,22%, situándose cerca de los modelos punteros occidentales.

La pregunta ya no es si la IA puede escribir código. Es si puede mejorar el código que la hace funcionar.

¿Qué significa que un modelo de IA sea «autoevolutivo»?

El concepto suena a ciencia ficción, pero la mecánica es más concreta de lo que parece. Durante su desarrollo, MiniMax permitió que M2.7 ejecutara un bucle autónomo de más de 100 rondas: analizar trayectorias de fallo, planificar cambios en el código, ejecutar evaluaciones, comparar resultados y decidir si conservar o revertir cada modificación. El resultado fue una mejora del 30% en rendimiento sobre los conjuntos de evaluación internos.

Pensado con una analogía: imagina un chef que, después de cada servicio, revisa las quejas de los comensales, ajusta las recetas, prueba variantes y descarta las que no funcionan. Solo que este chef nunca duerme y puede hacer 100 iteraciones en el tiempo que un equipo humano tardaría en completar una.

Skyler Miao, responsable de ingeniería de MiniMax, explicó en X (antes Twitter) que el modelo fue entrenado específicamente para planificar mejor y para clarificar requisitos con el usuario antes de actuar. «El siguiente paso es un simulador de usuario más complejo para llevar esto aún más lejos», adelantó.

¿Cómo rinde frente a la competencia?

Los números dan contexto a la ambición. Además del 56,22% en SWE-Bench Pro, M2.7 ha obtenido una tasa de medallas del 66,6% en MLE Bench Lite —una serie de competiciones de machine learning diseñadas por OpenAI para evaluar habilidades de investigación autónoma—, un resultado que empata con el recién lanzado Gemini 3.1 de Google.

En el terreno empresarial, el modelo también destaca. Su puntuación ELO de 1.495 en GDPval-AA —un benchmark que mide capacidades de análisis financiero profesional— es la más alta entre los modelos de código abierto y supera a GPT-5.3 en esa misma prueba. En una demostración, M2.7 leyó informes anuales de TSMC, cruzó datos de múltiples papers de investigación y generó un paquete completo con presentación, informe en Word y gráficos en Excel. El resultado, según analistas del sector, es suficiente como «primer borrador» en flujos de trabajo profesionales.

No todo son buenas noticias: en BridgeBench, un test orientado al vibe coding (convertir lenguaje natural en código funcional), M2.7 bajó al puesto 19, mientras que su predecesor M2.5 ocupaba el 12. Una caída que sugiere que las optimizaciones para tareas agénticas pueden tener un coste en otras áreas.

Agentes que trabajan en equipo: los «Agent Teams»

Una de las novedades más interesantes de M2.7 es el soporte nativo para lo que MiniMax llama Agent Teams: clusters de agentes de IA que colaboran con roles diferenciados. A diferencia de versiones anteriores, que dependían de prompts muy elaborados para coordinar tareas, M2.7 establece límites de rol y protocolos estrictos, permitiendo que los agentes cuestionen la lógica de los demás y apliquen razonamiento adversarial para reducir errores.

En la evaluación MM-Claw, que mide la capacidad de usar herramientas complejas y ejecutar tareas largas, M2.7 alcanzó un 62,7% de precisión. Este dato es relevante porque implica que el modelo puede mantener la coherencia de las instrucciones mientras gestiona más de 40 habilidades simultáneamente, algo crítico para integrarlo en sistemas corporativos reales.

El modelo se integra con herramientas populares del ecosistema de desarrollo como Claude Code, Kilo Code y OpenClaw, lo que facilita su adopción por parte de desarrolladores que ya trabajan con estas plataformas.

¿Cuánto cuesta y cómo se accede?

MiniMax mantiene una política de precios agresiva: 0,30 dólares por millón de tokens de entrada y 1,20 dólares por millón de tokens de salida, el mismo precio que M2.5. Esto lo posiciona como una de las opciones más baratas del mercado para un modelo de este nivel de rendimiento.

El acceso está disponible a través de la API de MiniMax, la plataforma MiniMax Agent y el proveedor OpenRouter. Los pesos del modelo son propietarios —a diferencia de versiones anteriores que MiniMax publicó en abierto—, aunque la compañía sigue contribuyendo al ecosistema con proyectos open source como OpenRoom, un entorno interactivo donde los agentes operan dentro de una interfaz visual con retroalimentación en tiempo real.

¿Por qué importa esto ahora?

El lanzamiento de M2.7 se enmarca en una tendencia clara de 2026: la carrera ya no es solo por construir modelos más grandes, sino por construir modelos que se mejoren a sí mismos. Si la primera ola de IA generativa fue sobre crear asistentes conversacionales, la segunda trata de agentes autónomos capaces de ejecutar flujos de trabajo complejos. Y la tercera —la que MiniMax empieza a explorar— es sobre modelos que participan activamente en su propia evolución.

Para las empresas, la implicación es directa. Un modelo que puede optimizar su propia infraestructura de entrenamiento reduce la dependencia de equipos humanos de ML, comprime ciclos de iteración y potencialmente abarata los costes de desarrollo a largo plazo. Para los competidores occidentales, la señal es clara: la distancia tecnológica entre China y Silicon Valley sigue estrechándose, y la ventaja ya no se mide solo en tamaño de modelo, sino en arquitectura de autooptimización.

Mi lectura: M2.7 no es el modelo que va a destronar a Opus o GPT-5 mañana. Pero es una declaración de intenciones. Cuando un modelo puede mejorar su propio andamiaje en 100 rondas autónomas, la pregunta deja de ser «qué tan bueno es hoy» y pasa a ser «qué tan bueno será la semana que viene». Y eso cambia las reglas del juego.

Preguntas frecuentes sobre MiniMax M2.7

¿Qué es MiniMax M2.7? MiniMax M2.7 es un modelo de lenguaje grande (LLM) propietario desarrollado por la startup china MiniMax, diseñado para funcionar como motor de agentes de IA autónomos y capaz de optimizar iterativamente su propio código y flujos de entrenamiento.

¿Qué puntuación obtiene en benchmarks clave? 56,22% en SWE-Bench Pro (ingeniería de software), 66,6% de tasa de medallas en MLE Bench Lite (investigación de ML), 62,7% en MM-Claw (uso de herramientas) y 1.495 ELO en GDPval-AA (análisis financiero).

¿Cuánto cuesta usar MiniMax M2.7? 0,30 dólares por millón de tokens de entrada y 1,20 dólares por millón de tokens de salida, disponible a través de la API de MiniMax y OpenRouter.

¿Es un modelo de código abierto? No. A diferencia de versiones anteriores, M2.7 es propietario. Sin embargo, MiniMax mantiene proyectos open source complementarios como OpenRoom.