Qwen3.5 en Ollama: el salto práctico hacia agentes multimodales con 256K de contexto

La noticia es sencilla de contar y muy interesante de usar: Ollama ha incorporado Qwen3.5, la nueva familia de modelos de Alibaba (equipo Qwen), con una propuesta pensada para quienes quieren mezclar texto e imagen y, a la vez, trabajar con agentes capaces de usar herramientas. En la biblioteca de modelos de Ollama aparece como una familia con soporte de visión, thinking y tools, con variantes locales y opciones en la nube.

En la práctica, esto baja a tierra una idea que llevaba tiempo rondando: que un modelo no sea solo “un chat”, sino un asistente que entiende lo que le enseñas (un pantallazo, un esquema, una foto), que aguanta conversaciones larguísimas o documentos enteros, y que puede ejecutar acciones guiadas, como si tuviera manos en forma de herramientas.

Multimodal nativo: cuando ver y leer no son dos sistemas distintos

Una de las claves de Qwen3.5 es que nace como modelo visión-lenguaje: no es un modelo de texto al que se le “pega” un módulo visual como accesorio, sino que la comprensión de imagen está integrada. Ollama describe esta base como una “unificación” de visión y lenguaje con entrenamiento de “fusión temprana” de tokens multimodales.

Para entenderlo sin jerga: es como pasar de una casa con dos timbres —uno para texto y otro para imagen— a una sola puerta con una sola persona atendiendo. En flujos reales esto suele notarse en tareas cotidianas como interpretar un diagrama, revisar un pantallazo de un error, extraer información de un documento escaneado o razonar sobre una imagen con instrucciones específicas.

256K de contexto: memoria larga para código, documentos y conversaciones

Otro titular que conviene tomar en serio es el contexto de 256K. En números, el modelo se anuncia con una ventana de 262.144 tokens de forma nativa, lo que equivale a mantener “en la mesa” un volumen de información enorme para un asistente: desde repositorios de código medianos hasta documentación larga o una auditoría con muchos fragmentos.

La metáfora útil aquí es la de una mesa de cocina. Con contextos pequeños, acabas apartando ingredientes al suelo para poder cocinar. Con contexto largo, puedes dejar la receta, los ingredientes y las notas a la vista sin perder el hilo. En la ficha del modelo grande en Hugging Face se menciona incluso que este contexto es extensible hacia el millón de tokens en ciertos ajustes, un dato relevante para quienes trabajan con flujos muy largos.

Thinking y agentes: cuándo conviene “pensar” y cuándo conviene ir rápido

Ollama etiqueta a Qwen3.5 con thinking, que en este tipo de modelos suele significar que puede alternar entre un modo más reflexivo y otro más directo. La idea es práctica: para una respuesta corta o una tarea mecánica, quieres velocidad; para depurar un bug complejo, planificar pasos o resolver una tarea con varias piezas, te interesa que el modelo “se tome un momento” para razonar.

El otro ingrediente es la llamada a herramientas y la orientación a agentes. En el material publicado en Ollama y en la tarjeta del modelo se habla de rendimiento en escenarios de agentes y evaluación con herramientas, lo que apunta a un objetivo claro: que el modelo no se quede en texto bonito, sino que pueda operar con herramientas externas cuando el entorno lo permite.

Tamaños: del portátil al cloud sin cambiar de familia

La familia llega con un abanico amplio. En local, Ollama lista variantes como 0.8B, 2B, 4B, 9B, 27B, 35B y 122B, todas con ventana de 256K y entrada de texto e imagen en los modelos locales principales. En la propia ficha de Ollama se ven también los tamaños de descarga aproximados, que ayudan a aterrizar expectativas: el 9B ronda los 6,6 GB, el 27B sube a 17 GB, el 35B a 24 GB y el 122B se va a unos 81 GB.

Aquí hay una distinción que merece explicación: el 27B se presenta como denso, mientras que variantes como la familia grande y algunos intermedios usan enfoques tipo Mixture-of-Experts (MoE), con parámetros “totales” enormes pero una fracción activa por token. En la tarjeta del Qwen3.5-397B-A17B se especifica, por ejemplo, que son 397B totales con 17B activados. La comparación cotidiana sería la de un hospital: no te atienden todos los especialistas a la vez, solo los que hacen falta para tu caso. Eso puede mejorar la eficiencia sin renunciar a capacidades.

Para quien necesita lo máximo, Ollama incluye opciones cloud, incluyendo una etiqueta específica para qwen3.5:397b-cloud dentro del listado de modelos.

Cómo se ejecuta en Ollama y cómo encaja con herramientas tipo Claude Code u OpenClaw

En uso básico, lo más directo es tirar de terminal: ollama run qwen3.5 ejecuta el modelo por defecto, y puedes fijar tamaños concretos con etiquetas como qwen3.5:4b, qwen3.5:9b o qwen3.5:27b. Si quieres usar una opción en la nube, Ollama muestra ollama run qwen3.5:cloud como entrada rápida.

Donde se pone interesante para desarrolladores es en la integración con herramientas “agenticas” de código. Ollama explica que es compatible con la API de mensajes estilo Anthropic, lo que permite usar utilidades como Claude Code con modelos abiertos servidos por Ollama. Y, para reducir fricción, ha introducido ollama launch, un comando pensado para levantar herramientas como Claude Code (y otras) sin pelearse con variables de entorno o configuraciones manuales.

En el caso de OpenClaw, la documentación de Ollama subraya un detalle que conviene leer con calma: en el primer arranque aparece un aviso de seguridad sobre los riesgos de conceder acceso a herramientas, precisamente porque un agente con herramientas es potente… y esa potencia necesita límites.

Qué conviene vigilar antes de activarlo en tu flujo diario

Con modelos multimodales y agentes, el “cómo” importa tanto como el “qué”. Si vas a usar imágenes, piensa en privacidad: un pantallazo puede incluir datos sensibles aunque tú no los estés mirando. Si vas a usar tool calling, define qué herramientas están permitidas y bajo qué condiciones; es la diferencia entre darle a alguien las llaves de casa o dejarle solo el mando del garaje.

También hay una decisión práctica entre local y cloud. Local te da control y, en muchos casos, costes previsibles; cloud te da músculo cuando el tamaño del modelo o la carga del trabajo supera tu equipo. Ollama ofrece ambas rutas dentro de la misma familia y, si lo tuyo es iterar, viene bien no tener que reaprender prompts o cambiar de “personalidad” de modelo cada vez que cambias de máquina.