GPT-5.5 supera a Claude Opus 4.7 en Terminal-Bench: la batalla del coding agéntico se decide en los benchmarks de tareas reales
OpenAI lanzó GPT-5.5 («Spud») la semana pasada con cifras que reordenan el liderazgo en programación agéntica. Aamir Khollam lo cubre en Interesting Engineering desde el ángulo competitivo: GPT-5.5 alcanza 82,7% en Terminal-Bench 2.0, el benchmark estándar para medir la habilidad de un agente de IA de operar autónomamente en una terminal Unix completando tareas reales… <a href="https://wwwhatsnew.com/2026/04/27/gpt-5-5-claude-opus-4-7-terminal-bench-coding-agentico-abril-2026/">Continúa leyendo »</a>