Durante años, Siri ha sido como ese ayudante amable que entiende lo que le pides… hasta que llega el momento de ejecutar tareas un poco más complejas y se queda a medio camino. Según ha publicado TechCrunch, citando información de Bloomberg firmada por Mark Gurman, Apple planea presentar en la segunda mitad de febrero una… Continúa leyendo »
Agentic Vision en Gemini 3 Flash: cuando el modelo “investiga” una imagen en lugar de mirarla una sola vez
Hasta ahora, muchos modelos de IA con capacidad visual trataban las imágenes como si fueran una postal: las “miraban” una vez y respondían. El problema aparece cuando la información importante está escondida en letra pequeña o en un rincón: el número de serie de un chip, un cartel al fondo de una calle o un detalle técnico en un plano. Si el modelo no lo capta en esa primera mirada, tiende a rellenar huecos con suposiciones.
Con Agentic Vision, Google presenta en Gemini 3 Flash una forma distinta de entender imágenes: más parecida a cómo actuaría una persona curiosa con lupa y bloc de notas. La idea es convertir la visión en un proceso activo, no en una interpretación instantánea. En vez de “adivinar” cuando falta contexto, el sistema puede acercarse, recortar, girar o marcar partes concretas para confirmar lo que está viendo y sostener la respuesta sobre evidencia visual. Continúa leyendo «Agentic Vision en Gemini 3 Flash: cuando el modelo “investiga” una imagen en lugar de mirarla una sola vez»