OpenAI ha presentado GPT-5.4 como su modelo “frontera” más capaz y eficiente orientado a tareas profesionales, con despliegue en ChatGPT (bajo el nombre GPT-5.4 Thinking), en la API y en Codex, según explica la propia compañía en su anuncio de producto. La idea es clara: juntar en un solo sistema mejoras de razonamiento, programación y flujos de trabajo con herramientas para que el modelo no solo responda, sino que entregue resultados que parezcan entregables de trabajo: un documento pulido, una hoja de cálculo coherente o un análisis legal estructurado.
La versión “estándar” alimenta la API y herramientas para desarrolladores, mientras que GPT-5.4 Thinking está orientada a usuarios que quieren ver un enfoque de razonamiento más deliberado dentro de ChatGPT. Junto a ellas aparece GPT-5.4 Pro, una variante para quien prioriza rendimiento en cargas complejas. En medios como Interesting Engineering se ha destacado precisamente ese posicionamiento: un modelo para documentos, spreadsheets, código y flujos multi-paso, con la promesa de menor coste por eficiencia de tokens y menos iteraciones para llegar al resultado.
Qué significan esos “83%” y por qué importa en la práctica
Uno de los titulares que más se ha repetido es el 83% en GDPval, un benchmark interno de OpenAI centrado en tareas de conocimiento que intentan representar trabajo real en múltiples ocupaciones. Dicho de forma cotidiana: si antes un modelo era como un becario rápido que a veces “se deja un detalle”, la ambición aquí es que actúe como alguien que entiende el encargo, lo ejecuta con criterio y entrega algo utilizable sin que tengas que estar corrigiendo cada dos líneas.
OpenAI compara ese 83% con el rendimiento de versiones anteriores y lo enmarca como “state of the art” en su propio marco de evaluación. A esto se suma que Mercor, empresa detrás del benchmark APEX-Agents, afirma que GPT-5.4 lidera su tabla en dominios profesionales como derecho y finanzas, con capacidad destacada para entregables de largo recorrido como presentaciones, modelos financieros o análisis legales, según cita el anuncio y la cobertura periodística.
Conviene leer estos números con el mismo escepticismo sano con el que leemos cualquier benchmark: sirven para orientar, no para prometer resultados idénticos en tu caso de uso. Aun así, sí dibujan una tendencia: OpenAI está empujando para que el modelo no sea solo “conversacional”, sino un motor de productividad con más consistencia cuando el trabajo exige estructura, estilo y precisión.
Contexto de un millón de tokens: la memoria de elefante con matices
Otro cambio llamativo es el soporte de ventanas de contexto de hasta 1 millón de tokens en la API. Para imaginarlo: es pasar de leer un capítulo a poder leer, de una sentada, un libro enorme con anexos, contratos, correos y notas de reuniones, manteniendo referencias internas sin perder el hilo cada pocas páginas.
En escenarios reales, esto puede simplificar tareas como revisar un repositorio grande, analizar documentación técnica extensa, cruzar varios informes o mantener un flujo de agente que acumula evidencias durante horas. OpenAI también muestra que, en pruebas de “long context”, el rendimiento no es uniforme: hay evaluaciones donde los aciertos caen al crecer el contexto. Es la pista de que “caber” no siempre equivale a “entender igual de bien” en tamaños gigantes, aunque el salto de capacidad abre puertas para flujos que antes eran directamente inviables por límite.
Computer use nativo: cuando el modelo no solo sugiere, también opera
La novedad más “de película”, por decirlo así, es la introducción de capacidades nativas de uso de ordenador en Codex y API: el modelo puede interactuar con interfaces a partir de capturas, mover el cursor, teclear y completar tareas en aplicaciones y webs. En el anuncio de OpenAI se apoya esta idea con resultados en benchmarks como OSWorld-Verified (entornos de escritorio) y WebArena-Verified (navegación y acciones en web), donde reporta mejoras fuertes frente a generaciones previas e incluso comparaciones con rendimiento humano en OSWorld, citando el trabajo académico asociado a ese benchmark.
Para aterrizarlo con un ejemplo cotidiano: imagina pedir “descarga las facturas del trimestre, ordénalas por proveedor y prepara un resumen”, y que el agente no se limite a explicarte los pasos, sino que pueda ejecutarlos en un portal, detectar dónde está el botón correcto, comprobar que el archivo se descargó y seguir con el siguiente. Es un cambio de rol: de asesor a operador, con todo lo que eso implica en seguridad y control.
Tool Search: menos “peso muerto” en prompts con muchas herramientas
Si has trabajado con agentes conectados a decenas de APIs, sabes el problema: meter en el prompt la definición de cada herramienta engorda la entrada, cuesta dinero, ralentiza respuestas y ensucia el contexto con cosas que quizá ni se usan. OpenAI plantea Tool Search como solución: en vez de incluirlo todo desde el inicio, el modelo consulta la definición solo cuando la necesita.
La analogía fácil es la de una cocina profesional. Antes, para hacer una tortilla, te dejaban sobre la encimera todos los utensilios del restaurante. Con Tool Search, el cocinero sabe qué herramientas existen y pide el batidor o la sartén solo cuando toca. OpenAI afirma que esto reduce tokens y acelera flujos en ecosistemas grandes de herramientas, citando pruebas internas con un conjunto de tareas y servidores MCP donde reporta una reducción relevante de uso total de tokens manteniendo la precisión.
Menos errores y más control del proceso de pensamiento
OpenAI también pone el foco en reducir fallos: indica que GPT-5.4 es menos propenso a errores en afirmaciones individuales y que sus respuestas completas contienen menos equivocaciones en un conjunto de prompts reales anonimizados donde usuarios marcaron errores, comparado con GPT-5.2.
En paralelo, aparece un tema sensible: la monitorización del chain-of-thought. Hay preocupación en parte de la comunidad de seguridad por si modelos “razonadores” pueden presentar un proceso aparente que no coincide con lo que realmente guía su salida. OpenAI dice haber evaluado este riesgo y sostiene que en GPT-5.4 Thinking la capacidad de ocultar o manipular su razonamiento sería baja, lo que apoyaría que la supervisión del razonamiento siga siendo útil. También menciona una evaluación abierta relacionada con “controlabilidad” del CoT.
En ChatGPT, Thinking puede mostrar un plan inicial antes de redactar la respuesta completa. En términos de experiencia de usuario, es como ver el índice antes del informe: te permite corregir el enfoque a tiempo, en vez de esperar a que el texto final vaya por un camino que no te sirve.
Disponibilidad, retirada de modelos y la letra pequeña del precio
En la parte práctica, OpenAI detalla un despliegue gradual en ChatGPT y Codex, con disponibilidad de GPT-5.4 Thinking para planes Plus, Team y Pro, sustituyendo a GPT-5.2 Thinking. GPT-5.2 Thinking quedaría como legado durante tres meses y se retiraría el 5 de junio de 2026, según el calendario publicado. Para Enterprise y Edu, se menciona la posibilidad de activar acceso temprano vía ajustes de administración.
En la API, aparecen precios por millón de tokens más altos que GPT-5.2, con el argumento de que el modelo es más capaz, mientras que su eficiencia de tokens podría compensar parte del coste total si resuelve en menos texto o en menos iteraciones. También se describen modalidades como Batch y Flex a mitad de precio estándar, y Priority a doble, pensando en necesidades de latencia.
Como extra orientado a empresas, OpenAI menciona un add-in de ChatGPT para Excel lanzado el mismo día, coherente con el énfasis repetido en hojas de cálculo y trabajo de oficina. El mensaje es transparente: quieren que el modelo sea útil donde se decide dinero y se redactan decisiones.
