Probé GPT-5.4 Thinking: brillante para razonar, impredecible para obedecer

OpenAI ha vuelto a mover la numeración y la conversación. En lugar de un paso pequeño, aparece GPT-5.4 Thinking, un modelo orientado a “pensar” con más profundidad y afrontar retos complejos. Según se ha contado en ZDNET, no es un ajuste menor del chat: el enfoque es ofrecer más análisis, más estructura mental y más capacidad de trabajo sostenido, y se puede usar en herramientas como Codex, en la API y en planes de pago de ChatGPT como ChatGPT Plus.

Esa promesa tiene una lectura práctica: si antes pedías una respuesta y el modelo te devolvía una explicación rápida, ahora la apuesta es que pueda comportarse como un colaborador que no se queda en la superficie. El problema es que, cuando un sistema gana “personalidad” intelectual, también puede ganar una manía: contestar lo que cree que deberías haber preguntado, no lo que preguntaste.

El patrón que se repite: respuestas muy buenas… a veces a otra pregunta

En las pruebas descritas por David Gewirtz (ZDNET), hay un hilo conductor claro. GPT-5.4 Thinking tiende a ofrecer textos sólidos, extensos, bien razonados y, en apariencia, cuidadosos con los detalles. La experiencia incluso destaca algo importante: no se detectaron alucinaciones evidentes en esas sesiones. Eso, para muchos usos profesionales, es oro.

El roce llega cuando el modelo “se descarrila” con elegancia. Es como pedirle a un carpintero que apriete un tornillo y verlo construir una puerta magnífica… en la pared equivocada. El resultado puede ser impresionante, útil y convincente, pero no necesariamente responde a tu encargo.

Prueba 1: el helicarrier y la brecha entre análisis e imagen

La primera prueba empieza por un clásico de la cultura pop: un portaaviones volando, sostenido por grandes hélices orientadas hacia abajo. Se pidió una generación de imágenes concreta y, como ocurre con otros sistemas, el modelo falló en el detalle clave de la orientación. Hasta aquí, normal: los generadores visuales suelen confundir instrucciones espaciales.

Lo interesante vino después. Al solicitar el diseño del vehículo, explicando estructura, sustentación y limitaciones, GPT-5.4 Thinking se comportó como ese compañero ingeniero que te baja la fantasía a tierra con argumentos. Señaló por qué cuatro turbopropulsores hacia abajo “quedan espectaculares” pero son una mala solución: peso, potencia necesaria, estabilidad, flujo de aire, operaciones en cubierta… La lógica de peso-potencia apareció donde debía. Esa parte es valiosa porque convierte una idea cinematográfica en una discusión técnica entendible.

La frustración regresó cuando, tras ese razonamiento, se pidió un dibujo basado en su propio análisis. Y el sistema devolvió prácticamente la misma imagen inicial, como si no hubiera escuchado nada de lo anterior. Es una sensación muy concreta: la del alumno brillante que te explica el tema perfecto y luego entrega el ejercicio de otra asignatura. Para quien necesite entregables visuales o documentación técnica con diagramas, esta distancia entre un gran texto y un mal soporte gráfico es un freno real.

Prueba 2: itinerario en Boston, útil pero con “sabor” a borrador

Cuando el encargo fue un viaje de una semana a Boston en marzo, centrado en tecnología e historia, el modelo ofreció un plan funcional, con lugares emblemáticos y museos científicos relevantes. También se agradecen los apuntes prácticos: marzo puede ser traicionero, así que sugerir alternativas de interior cuando el tiempo empeora es el tipo de detalle que te ahorra una tarde perdida.

Lo que no convenció al autor fue la chispa. El primer planteamiento separaba días “de historia” y días “de tecnología”, una organización que suena ordenada pero suele ser poco eficiente sobre el terreno. Tras iterar, se reordenó por zonas, que es como planifica la gente real: caminar más, perder menos tiempo en transporte, cansarse menos.

El punto fuerte llegó con el presupuesto. GPT-5.4 Thinking estimó costes acumulados día a día, ofreció opciones “cara” y “de estudiante”, recomendó dónde comer sin arruinarse y planteó alojamientos equilibrando ubicación y precio. Esto es muy del “modelo que piensa”: no solo enumera, intenta construir una decisión.

El punto débil fue el formato. Al parecer, tendía a volcar listas numeradas larguísimas, difíciles de escanear. En un contexto de viaje, el valor está en la legibilidad inmediata. Si tienes que editar la respuesta para que te sirva, el modelo te ahorra investigación, sí, pero te cobra tiempo de curación.

Prueba 3: redes sociales, cuando el razonamiento sí marca la diferencia

En el análisis sobre si las redes sociales han mejorado o empeorado la comunicación, la comparación entre modelos anteriores y GPT-5.4 Thinking es contundente. Donde una versión previa respondió con dos líneas correctas pero poco nutritivas, aquí salió un argumento largo y matizado: beneficios, costes, mecanismos sociales, incentivos de plataforma, efectos en el discurso público.

Lo relevante no es solo la longitud, sino el tejido lógico. Un buen razonamiento se parece a ordenar un cajón: no basta con vaciarlo y mirar lo que hay; hay que separar, etiquetar mentalmente y decidir qué pesa más. El modelo, según el relato, terminó inclinándose hacia la idea de que, en balance, las redes han empeorado la comunicación, y lo defendió con una estructura que se deja leer y discutir.

En la repregunta sobre qué debería hacer la sociedad, el modelo descompuso un problema “sin respuesta única” y aun así ofreció un marco con decisiones posibles. Esta es la zona donde un modelo de pensamiento puede aportar valor real: no dicta una verdad, pero te ayuda a pensar sin perderte.

Prueba 4: constructivismo educativo, el ejemplo perfecto de desobediencia elegante

El test más revelador fue pedir que explicara GPT-5.4 Thinking usando el constructivismo educativo, esa idea de que aprendemos mejor haciendo. El encargo implícito era proponer actividades: ejercicios que permitan “tocar” las capacidades del modelo, como aprender a cocinar cocinando, no leyendo recetas.

El modelo hizo otra cosa: escribió una tesis sobre cómo el sistema encaja con el constructivismo, y luego ofreció reformularlo en varios estilos. Era interesante, pero no seguía la instrucción central de “aprender haciendo”. Este caso sirve como aviso: la inteligencia puede disfrazar el fallo de obediencia. Si el texto es bueno, cuesta detectar que no respondió a la demanda original.

Qué significa esto para el uso profesional

El autor de ZDNET usa una metáfora muy gráfica: ChatGPT como un estudiante brillante que necesita supervisión, y GPT-5.4 Thinking como un posgraduado aún más brillante… que también necesita supervisión. La preocupación no va de si escribe bien; va de si sigue instrucciones con precisión. En tareas profesionales, ese detalle es crítico. Si le pides un análisis legal y te entrega uno excelente sobre un caso parecido, el riesgo no es que sea malo: es que sea persuasivo y equivocado para tu necesidad.

También aparece una duda razonable sobre las afirmaciones de que el modelo puede hacer tareas profesionales al nivel humano. Si no consigue un render “de ingeniería” cuando se lo piden, cuesta creer que, sin herramientas especializadas, vaya a reemplazar la precisión de un trabajo técnico completo. Sí puede acelerar mucho el trabajo de un profesional, siempre que ese profesional haga de editor, verificador y director de orquesta.

El equilibrio que muchos usuarios van a exigir

La historia deja una pregunta práctica: ¿qué pesa más, el brillo del análisis o la obediencia? Para investigar, debatir ideas o construir argumentos, GPT-5.4 Thinking parece una gran herramienta. Para entregar resultados con requisitos estrictos, el riesgo está en que el sistema se tome libertades creativas justo donde no debe.

La paradoja es que cuanto mejor escribe, más fácil es confiarse. Y cuanto más se normalicen modelos “pensantes”, más importante será el hábito de revisar si respondieron exactamente a lo pedido, no solo si suenan convincentes.