OpenAI o3 y o4-mini: lo que debes saber sobre los nuevos modelos de razonamiento

Los modelos de lenguaje de OpenAI siguen avanzando, y la familia o-series se ha convertido en el nuevo foco de atención. Con el lanzamiento de o3, o3-mini, o3-pro y o4-mini, OpenAI pone sobre la mesa una nueva generación de herramientas diseñadas no solo para generar texto, sino para razonar de forma más parecida a cómo lo haría un ser humano.

¿Qué es la serie o de OpenAI?

La serie o, que comenzó con el modelo o1 en 2024, representa una evolución en los modelos de lenguaje con enfoque específico en razonamiento complejo. Mientras GPT-4 se especializa en tareas generales, los modelos o están pensados para analizar, reflexionar y resolver problemas con varios pasos lógicos.

Simulated Reasoning: pensar antes de responder

El elemento clave de estos modelos es el uso de razonamiento simulado. Este mecanismo permite que el modelo «piense en voz alta», generando un proceso de reflexión interna antes de dar una respuesta. Es similar a cuando una persona se detiene unos segundos para analizar un problema antes de contestar.

Esta capacidad supera el enfoque anterior conocido como «chain-of-thought» (cadena de pensamiento), y permite que el modelo evalúe sus propias ideas antes de decidir cuál es la mejor.

Las versiones disponibles: de mini a pro

La serie o3 incluye tres variantes:

o3: la versión base, con capacidades avanzadas de razonamiento.
o3-mini: una versión reducida, más eficiente y económica.
o3-pro: el modelo más completo, con un nivel de razonamiento superior, ideal para tareas que requieren máxima precisión.

Por su parte, la serie o4 debuta con el modelo o4-mini, también con enfoque en razonamiento, pero optimizado para uso intensivo con menos consumo de recursos.

o3-mini y o4-mini: eficiencia sin sacrificar calidad

Ambos modelos «mini» buscan un equilibrio entre coste, rendimiento y rapidez. Por ejemplo, el o3-mini se divide en niveles: low, medium y high, dependiendo del nivel de profundidad en el razonamiento requerido. Es como elegir entre café filtrado, espresso o cold brew: todos cumplen la misma función, pero con diferente intensidad.

El o4-mini, lanzado junto con o3, mejora aún más los resultados de o3-mini, siendo una opción potente y accesible para desarrolladores y empresas.

o3-pro: cuando necesitas lo mejor

La versión más potente, o3-pro, es capaz de realizar análisis científicos, programación compleja, escritura avanzada y procesamiento de datos con una precisión sobresaliente. Es más lento que las otras versiones, ya que «piensa más», pero ofrece resultados más confiables.

Además, tiene acceso a herramientas externas como navegación web, análisis de archivos, uso de Python y procesamiento de imágenes, lo que lo convierte en un verdadero modelo agente capaz de resolver tareas complejas en varios pasos.

Deliberative Alignment: seguridad mejorada

Uno de los avances más interesantes en estas nuevas versiones es el enfoque de seguridad llamado deliberative alignment. A diferencia de los filtros tradicionales, este sistema analiza los prompts (instrucciones) usando sus propias habilidades de razonamiento, identificando intenciones ocultas o peligrosas.

Este proceso incluye:

Acceso directo a especificaciones de seguridad
Generación de razonamientos sobre cada prompt
Evaluación final que cumple con las políticas

Así, se reduce la posibilidad de rechazar contenido seguro por error o permitir contenido riesgoso.

Pensar con imágenes: visual reasoning

Otra novedad es la capacidad de razonamiento visual. Esto no se trata solo de «ver» imágenes, sino de «pensar con ellas». Los modelos pueden:

Integrar imágenes en su proceso de análisis
Manipularlas durante el razonamiento (girar, ampliar, recortar)
Resolver problemas combinando texto e imagen (como interpretar un gráfico o un diagrama)

Un ejemplo práctico: podría analizar una fotografía de un circuito electrónico y detectar fallos o sugerir mejoras, todo sin necesidad de convertir esa imagen a texto previamente.

Comparativa de resultados

Los nuevos modelos superan ampliamente a sus predecesores en diversas pruebas:

En matemáticas (examen AIME 2025), o3 obtuvo 88.9% y o4-mini 92.7%
En programación (SWE-bench Verified), o3 alcanzó 69.1% y o4-mini 68.1%
En ciencia avanzada (GPQA Diamond), ambos modelos superaron el 80%

Cómo usar los modelos o3 y o4-mini

Hay varias formas de acceder a estos modelos:

ChatGPT: usuarios de planes Plus, Pro y Team ya tienen acceso a o3 y o4-mini, y pueden elegir o3-pro según disponibilidad.
ChatGPT gratis: puede usar o4-mini con la opción «Think».
API para desarrolladores: precios competitivos, especialmente tras una reducción de hasta 80% en las tarifas de o3 en junio de 2025.

¿Y el modelo o2?

No existe un modelo o2. La razón es sencilla: ese nombre está registrado como marca comercial por una operadora británica, por lo que OpenAI lo omitió por respeto legal y de marca.

Un paso firme hacia modelos más inteligentes

La serie o marca una transición en los modelos de lenguaje hacia sistemas que no solo procesan datos, sino que comprenden, reflexionan y toman decisiones informadas. Desde tareas cotidianas hasta proyectos de investigación, los modelos o3 y o4-mini representan una nueva etapa en la aplicación práctica de la inteligencia artificial.