Agentic Vision en Gemini 3 Flash: cuando el modelo “investiga” una imagen en lugar de mirarla una sola vez

Hasta ahora, muchos modelos de IA con capacidad visual trataban las imágenes como si fueran una postal: las “miraban” una vez y respondían. El problema aparece cuando la información importante está escondida en letra pequeña o en un rincón: el número de serie de un chip, un cartel al fondo de una calle o un detalle técnico en un plano. Si el modelo no lo capta en esa primera mirada, tiende a rellenar huecos con suposiciones.

Con Agentic Vision, Google presenta en Gemini 3 Flash una forma distinta de entender imágenes: más parecida a cómo actuaría una persona curiosa con lupa y bloc de notas. La idea es convertir la visión en un proceso activo, no en una interpretación instantánea. En vez de “adivinar” cuando falta contexto, el sistema puede acercarse, recortar, girar o marcar partes concretas para confirmar lo que está viendo y sostener la respuesta sobre evidencia visual. Continúa leyendo «Agentic Vision en Gemini 3 Flash: cuando el modelo “investiga” una imagen en lugar de mirarla una sola vez»

o3 y o4-mini: las nuevas IA de OpenAI que piensan, razonan y programan como nunca antes

La inteligencia artificial no se detiene, y OpenAI acaba de lanzar lo que posiblemente sea el mayor salto cualitativo en IA desde la llegada de GPT-4: los modelos O3 y O4-mini. Estas nuevas versiones no son simples mejoras, sino una evolución profunda que los convierte no solo en modelos, sino en sistemas inteligentes completos capaces de usar herramientas, razonar visualmente y generar ideas originales.

Y sí, todo esto ya está llegando a ChatGPT, incluso para usuarios gratuitos.

Continúa leyendo «o3 y o4-mini: las nuevas IA de OpenAI que piensan, razonan y programan como nunca antes»