Hasta ahora, muchos modelos de IA con capacidad visual trataban las imágenes como si fueran una postal: las “miraban” una vez y respondían. El problema aparece cuando la información importante está escondida en letra pequeña o en un rincón: el número de serie de un chip, un cartel al fondo de una calle o un detalle técnico en un plano. Si el modelo no lo capta en esa primera mirada, tiende a rellenar huecos con suposiciones.
Con Agentic Vision, Google presenta en Gemini 3 Flash una forma distinta de entender imágenes: más parecida a cómo actuaría una persona curiosa con lupa y bloc de notas. La idea es convertir la visión en un proceso activo, no en una interpretación instantánea. En vez de “adivinar” cuando falta contexto, el sistema puede acercarse, recortar, girar o marcar partes concretas para confirmar lo que está viendo y sostener la respuesta sobre evidencia visual.
La mecánica “Think, Act, Observe” explicada sin jerga
El corazón de Agentic Vision se apoya en un ciclo que suena técnico pero se entiende fácil si lo comparas con buscar algo en una foto del móvil. Primero piensas qué necesitas encontrar; luego haces acciones como zoom o recortes; por último vuelves a mirar el resultado con más claridad. Google lo formaliza como Think, Act, Observe.
En la fase de razonamiento visual (“Think”), el modelo interpreta la pregunta del usuario y analiza la imagen inicial para trazar un plan de varios pasos. En “Act”, entra lo diferencial: se apoya en ejecución de código para manipular la imagen o medir elementos con precisión, usando Python como herramienta. En “Observe”, la imagen transformada (por ejemplo, un recorte ampliado o una versión anotada) se incorpora al contexto del propio modelo, que vuelve a inspeccionarla con esa nueva “lente” antes de responder.
Por qué la ejecución de código marca la diferencia
Hay una razón práctica por la que esta combinación resulta atractiva para desarrolladores: cuando pides operaciones exactas —contar, medir, calcular, normalizar datos— los modelos puramente probabilísticos pueden equivocarse en pasos intermedios, incluso aunque “parezca” que lo entienden. Con ejecución de código, una parte del trabajo deja de ser interpretativa y pasa a ser determinista: el cálculo lo hace un entorno que no improvisa.
Google afirma que habilitar Code Execution en Gemini 3 Flash aporta una mejora consistente del 5% al 10% en la mayoría de benchmarks de visión. Traducido al día a día, esa diferencia puede ser la frontera entre un asistente que “casi siempre” acierta y uno que se vuelve fiable para tareas repetitivas. Es como cambiar una regla dibujada a mano por un calibre: ambos te orientan, pero uno te da confianza cuando necesitas precisión.
Tres escenas útiles: inspeccionar, anotar, hacer matemáticas visuales
Uno de los usos más inmediatos es el zoom inteligente para encontrar detalles finos. Gemini 3 Flash está entrenado para decidir de forma implícita cuándo conviene acercarse si detecta que la respuesta depende de información pequeña. En el texto de presentación se menciona el caso de PlanCheckSolver.com, una plataforma que valida planes de construcción: al permitir el uso de ejecución de código, el sistema puede recortar zonas específicas de planos de alta resolución (por ejemplo, bordes de cubierta o secciones concretas) y volver a analizarlas como nuevas imágenes, mejorando la exactitud reportada en torno a un 5%. La metáfora aquí es clara: no intentas leer la letra diminuta desde lejos; te acercas, revisas y confirmas.
El segundo escenario es la anotación de imágenes como “pizarra visual”. En lugar de limitarse a describir, el modelo puede dibujar sobre la imagen: encuadrar objetos, poner etiquetas o numerar elementos. Esto es útil cuando el error típico es de conteo o de correspondencia. El ejemplo que comparte Google en la app de Gemini parte de una tarea aparentemente simple, como contar dedos en una mano: el modelo dibuja recuadros y números sobre cada dedo identificado para evitar confusiones. Es un truco muy humano: cuando cuentas monedas, las separas en montones; aquí la IA hace algo equivalente, pero sobre píxeles.
El tercer caso combina visión con análisis de datos: leer tablas densas y pasar de “ver números” a generar gráficos verificables. Los modelos suelen fallar cuando tienen que extraer valores, hacer operaciones y luego presentar resultados. Con Agentic Vision, el sistema puede detectar los datos, escribir código para normalizarlos y crear un gráfico en Matplotlib. El resultado es menos “magia” y más “contabilidad”: no te pide fe, te da un procedimiento reproducible.
Implicaciones prácticas para productos y equipos de desarrollo
Para equipos que construyen productos con IA visual, el enfoque agentico cambia el tipo de problemas que se pueden abordar con menos riesgo. Si tu aplicación depende de detalles pequeños —inspección industrial, interpretación de documentos escaneados, lectura de instrumentos, verificación de cumplimiento— el valor no está solo en “entender” la imagen, sino en poder justificar la respuesta con pasos visibles. La combinación de razonamiento visual y ejecución de código actúa como una auditoría interna: recorto aquí, mido allí, vuelvo a mirar, y entonces respondo.
También hay una lectura importante: no todas las capacidades se activan igual. Según explica Google, Gemini 3 Flash ya decide de forma implícita cuándo hacer zoom para detectar detalles, pero otras acciones como rotar imágenes o hacer matemáticas visuales todavía pueden requerir que el usuario o el prompt lo sugiera de forma explícita. Esto importa para diseño de prompts y UX: si esperas que el modelo rote o trace gráficos sin indicación, conviene guiarlo hasta que esos comportamientos sean más automáticos.
Dónde está disponible y cómo se activa
Google sitúa Agentic Vision como una capacidad disponible en la Gemini API a través de Google AI Studio y Vertex AI, y también en proceso de despliegue en la app de Gemini, accesible seleccionando una opción tipo “Thinking” desde el selector de modelos. En AI Studio, la activación se plantea como un interruptor: habilitar “Code Execution” dentro de las herramientas del Playground. Para desarrolladores, el patrón es el de siempre: incluyes una imagen en la solicitud y, en la configuración, indicas que el modelo puede usar la herramienta de ejecución de código.
Si lo piensas como una cocina, el modelo no solo “lee la receta” (la imagen), sino que también puede usar utensilios (el código) para comprobar medidas, separar ingredientes y presentar el plato final con menos improvisación. En aplicaciones reales, ese matiz suele ser lo que decide si la función se queda como demo llamativa o se convierte en parte estable del producto.
Qué anticipa Google para las próximas iteraciones
La hoja de ruta descrita apunta en tres direcciones. La primera es hacer que más comportamientos guiados por código se vuelvan implícitos, no solo el zoom: que rotar, anotar o calcular ocurra de forma natural cuando el problema lo pida. La segunda es sumar más herramientas para reforzar el anclaje en la realidad, mencionando opciones como búsqueda web o búsqueda inversa de imágenes para mejorar la “comprobación” del mundo. La tercera es extender la capacidad a más tamaños de modelo, más allá de la familia Flash.
Para quienes siguen la evolución de la IA aplicada, el interés no está únicamente en una función nueva, sino en la dirección: modelos que no se conforman con una primera impresión, sino que aprenden a investigar, verificar y mostrar su trabajo cuando la imagen es ambigua o demasiado rica en detalles.
