Hasta ahora, muchos modelos de IA con capacidad visual trataban las imágenes como si fueran una postal: las “miraban” una vez y respondían. El problema aparece cuando la información importante está escondida en letra pequeña o en un rincón: el número de serie de un chip, un cartel al fondo de una calle o un detalle técnico en un plano. Si el modelo no lo capta en esa primera mirada, tiende a rellenar huecos con suposiciones.
Con Agentic Vision, Google presenta en Gemini 3 Flash una forma distinta de entender imágenes: más parecida a cómo actuaría una persona curiosa con lupa y bloc de notas. La idea es convertir la visión en un proceso activo, no en una interpretación instantánea. En vez de “adivinar” cuando falta contexto, el sistema puede acercarse, recortar, girar o marcar partes concretas para confirmar lo que está viendo y sostener la respuesta sobre evidencia visual. Continúa leyendo «Agentic Vision en Gemini 3 Flash: cuando el modelo “investiga” una imagen en lugar de mirarla una sola vez»