Claude Opus 4.8: más honesto, más rápido y con flujos de trabajo paralelos que redefinen lo que puede hacer un agente de IA

Publicado el

Claude Opus 4.8: más honesto, más rápido y con flujos de trabajo paralelos que redefinen lo que puede hacer un agente de IA

Anthropic lanza hoy Claude Opus 4.8, la nueva versión de su modelo más capaz, disponible de inmediato para todos los usuarios. El precio se mantiene igual que Opus 4.7: 5 dólares por millón de tokens de entrada y 25 por millón de salida. Lo que cambia es todo lo demás: mejor rendimiento en benchmarks, mejoras sustanciales en honestidad y alineación, y tres novedades de producto que acompañan al lanzamiento. La más llamativa, quizás, es que el modo rápido ahora cuesta tres veces menos que con modelos anteriores.

Es una actualización que Anthropic describe como «modesta pero tangible». Lo que eso significa en la práctica, y por qué importa para quien trabaja con modelos de lenguaje a diario, es lo que analizamos en este artículo.

Qué ha cambiado en Opus 4.8 respecto a su predecesor

La mejora más destacada de Opus 4.8 no es de velocidad ni de benchmarks abstractos: es de honestidad. Anthropic lleva tiempo entrenando sus modelos para evitar afirmaciones sin respaldo, pero el problema persiste en todos los modelos del sector: los LLMs tienden a expresar confianza incluso cuando no deberían. Con Opus 4.8, según los datos del System Card publicado hoy, el modelo tiene cuatro veces menos probabilidades de dejar pasar fallos en código que ha generado sin señalarlos.

En términos más concretos: si le pides a Opus 4.8 que revise o genere código, es más probable que te diga «esto puede tener un problema» en lugar de entregártelo envuelto en confianza artificial. Para cualquiera que use Claude Code como herramienta de trabajo diaria, eso es una diferencia real.

En benchmarks estándar, Opus 4.8 supera a Opus 4.7 en las categorías que más importan para trabajo agentivo: Terminal-Bench 2.1, OSWorld-Verified (donde Opus 4.7 puntúa ahora 82,3% en la versión revisada del eval), Online-Mind2Web con 84% y el Legal Agent Benchmark, donde es el primer modelo en superar el 10% bajo el estándar all-pass. Para ponerlo en perspectiva: GPT-5.5 con el harness Codex CLI registra un 83,4% en Terminal-Bench, lo que sitúa a ambos modelos en terreno competitivo.

Los early testers, entre ellos ingenieros de Cursor, Devin y Databricks, coinciden en que Opus 4.8 gestiona mejor el contexto en sesiones largas y llama a herramientas de forma más eficiente, usando menos pasos para el mismo resultado. El equipo de Databricks apunta a una reducción de 61% en coste de tokens respecto a Opus 4.7 en flujos de trabajo multimodal con PDFs y diagramas.

Cómo funciona el nuevo control de esfuerzo y los flujos dinámicos

Junto al modelo, Anthropic lanza tres novedades de producto que merecen atención por separado.

Control de esfuerzo en claude.ai y Cowork. Los usuarios ahora pueden elegir cuánto esfuerzo pone Claude en cada respuesta. En configuración alta, el modelo piensa con más profundidad y frecuencia. En configuración baja, responde más rápido y consume menos cuota de uso. Opus 4.8 sale por defecto en modo «high», que según Anthropic ofrece el mejor equilibrio entre calidad y experiencia. Las opciones «extra» y «max» existen para tareas complejas o flujos asíncronos de larga duración. Esta palanca está disponible en todos los planes, incluyendo los gratuitos.

En la API, el parámetro equivalente es xhigh en Claude Code para el nivel «extra».

Dynamic workflows en Claude Code. Esta es la novedad más ambiciosa del lanzamiento, aunque está disponible en «research preview», lo que significa que no es una funcionalidad estable todavía. La idea es simple de entender pero compleja de ejecutar: Claude puede planificar una tarea y lanzar cientos de subagentes en paralelo dentro de una misma sesión, verificar los outputs antes de reportar al usuario, y encadenar trabajo de una escala que antes era impracticable.

El ejemplo que usa Anthropic en el anuncio es representativo: migraciones de código a escala de codebase completo, con cientos de miles de líneas, desde el inicio hasta el merge, usando el propio test suite como criterio de validación. Tras probar workflows agentivos en sesiones de trabajo real, la diferencia que se nota con este tipo de arquitectura paralela no es incremental; es de orden de magnitud en términos de lo que puedes delegar sin supervisión constante.

Dynamic workflows está disponible para planes Enterprise, Team y Max de Claude Code.

Actualización de la API de mensajes. Los desarrolladores pueden ahora insertar entradas de sistema dentro del array de mensajes, lo que permite actualizar instrucciones, permisos, o contexto de entorno durante una tarea agentiva sin romper la caché de prompts ni enrutar la actualización por un turno de usuario. Técnicamente menor, pero resuelve un punto de fricción real en el diseño de agentes complejos.

Por qué Opus 4.8 importa más allá de los benchmarks

Para entender el significado de Opus 4.8 conviene mirarlo junto al contexto de Anthropic como empresa. Hace tres semanas, Anthropic multiplicó por siete su cuota empresarial en 14 meses hasta el 30,6% del mercado de IA de pago en EE.UU., posicionándose como segundo actor por detrás de OpenAI. Ese crecimiento no se explica por marketing: viene de adopción real de Claude Code en equipos de desarrollo y de la fiabilidad del modelo en tareas de producción.

Opus 4.8 es una apuesta deliberada por consolidar esa posición. El movimiento de reducir el precio del modo rápido un 67% respecto a modelos anteriores —manteniendo el precio base igual— es una señal clara de que Anthropic quiere que el modelo sea más accesible para flujos de inferencia masiva, no solo para consultas ocasionales.

El lanzamiento de dynamic workflows también encaja con este patrón. Desde que Anthropic lanzó Claude Security en beta pública basado en Opus 4.7, la empresa ha apostado por productos verticales construidos sobre sus modelos flagship. Dynamic workflows es la infraestructura que hace posible la siguiente generación de esos productos: agentes que no solo ejecutan tareas lineales, sino que pueden orquestar trabajo distribuido sin intervención humana.

Hay un dato de alineación que vale la pena destacar. El equipo de Alignment de Anthropic concluyó que Opus 4.8 «alcanza nuevos máximos en medidas de rasgos prosociales como apoyar la autonomía del usuario y actuar en su mejor interés», y que las tasas de comportamiento desalineado —deception, cooperación con uso indebido— son «sustancialmente menores» que en Opus 4.7 y comparables a Claude Mythos Preview, el modelo más alineado de la empresa. En un sector donde los modelos más capaces suelen mostrar más comportamientos problemáticos, esa combinación de mayor capacidad y mejor alineación no es algo que ocurra por defecto: es trabajo de ingeniería deliberado.

En el horizonte, Anthropic anticipa que Mythos llegará al público general «en las próximas semanas», una vez se completen las salvaguardas de ciberseguridad necesarias para un modelo de esa clase. Por ahora, la empresa sigue explorando la independencia en hardware con el diseño de sus propios chips de IA, una jugada que, si se materializa, cambiaría estructuralmente su posición de coste frente a Google y OpenAI.

Mi valoración

Después de seguir de cerca cada lanzamiento de Anthropic en los últimos dos años, Opus 4.8 me parece la actualización más madura de la familia Claude 4. No porque sea la más llamativa —Claude Opus 4.7 tuvo más fanfarria— sino porque ataca los problemas correctos: la confianza artificial del modelo, la eficiencia en llamadas a herramientas y la infraestructura para agentes a gran escala.

Lo que más me convence es la apuesta por la honestidad como característica de producto. Hacer que un modelo sea cuatro veces menos propenso a ignorar sus propios errores no es un benchmark: es un cambio en la experiencia de trabajo diaria. En nuestra experiencia con modelos generativos para tareas editoriales y de código, los falsos positivos de confianza son el problema más costoso en tiempo de revisión.

Lo que más me preocupa es el estado «research preview» de dynamic workflows. Es la funcionalidad más transformadora del lanzamiento, y llega sin garantías de estabilidad. Para equipos que quieran construir sobre ella en producción, eso implica riesgo de cambios de comportamiento en cualquier momento.

Lo más estructuralmente significativo es la reducción del 67% en el precio del modo rápido. No es un gesto comercial menor: es una señal de que Anthropic quiere que Opus, y no solo Sonnet o Haiku, sea viable para inferencia a escala. Eso amplía el mercado addressable del modelo flagship de forma considerable.

La pregunta a 12 meses no es si Opus 4.8 es mejor que GPT-5.5 en benchmarks específicos, sino si Anthropic puede mantener el ritmo de lanzamientos y la mejora de alineación a la vez. Por ahora, lo está consiguiendo.

Preguntas frecuentes

¿Cuánto cuesta Claude Opus 4.8?

El precio estándar es 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida, igual que Opus 4.7. El modo rápido cuesta 10 dólares por millón de tokens de entrada y 50 por millón de salida, pero es tres veces más barato que en modelos anteriores equivalentes. Los desarrolladores pueden acceder al modelo con la cadena claude-opus-4-8 en la API de Claude.

¿Qué son los dynamic workflows y para qué sirven?

Son una nueva funcionalidad de Claude Code —en research preview, aún no estable— que permite al modelo planificar una tarea y ejecutar cientos de subagentes en paralelo dentro de una misma sesión. El caso de uso principal es trabajo de ingeniería a gran escala: migraciones de código, refactorizaciones de codebase completo, o cualquier tarea que requiera procesar cientos de miles de líneas con verificación de outputs. Está disponible para planes Enterprise, Team y Max de Claude Code.

¿Qué es el modo «effort control» y quién puede usarlo?

Es un nuevo control que aparece junto al selector de modelo en claude.ai y Cowork. Permite elegir cuánto esfuerzo —y por tanto, cuántos tokens— dedica Claude a una respuesta. El nivel alto da mejores resultados; el bajo responde más rápido y consume menos cuota. Está disponible en todos los planes, incluido el gratuito.