Phi-4-reasoning-vision-15B: el modelo multimodal compacto de Microsoft que “piensa” solo cuando conviene

Microsoft Research ha presentado Phi-4-reasoning-vision-15B, un modelo multimodal de 15.000 millones de parámetros con pesos abiertos, pensado para combinar visión y lenguaje sin disparar costes de cómputo ni latencia. La idea es sencilla de entender con un ejemplo cotidiano: no necesitas sacar una calculadora científica para apuntar un número de teléfono, pero sí para resolver una integral. Este modelo intenta hacer justo eso: responder “directo” cuando la tarea es perceptiva (leer, describir, localizar) y activar un razonamiento más largo cuando el problema lo pide, como en matemáticas y ciencias.

Según Microsoft Research, está disponible en Microsoft Foundry, Hugging Face y GitHub, con un enfoque claro: ofrecer una opción compacta que sea competitiva en tareas clásicas de visión-lenguaje, y especialmente sólida cuando hay que razonar con información visual o entender interfaces. Continúa leyendo «Phi-4-reasoning-vision-15B: el modelo multimodal compacto de Microsoft que “piensa” solo cuando conviene»

Agentic Vision en Gemini 3 Flash: cuando el modelo “investiga” una imagen en lugar de mirarla una sola vez

Hasta ahora, muchos modelos de IA con capacidad visual trataban las imágenes como si fueran una postal: las “miraban” una vez y respondían. El problema aparece cuando la información importante está escondida en letra pequeña o en un rincón: el número de serie de un chip, un cartel al fondo de una calle o un detalle técnico en un plano. Si el modelo no lo capta en esa primera mirada, tiende a rellenar huecos con suposiciones.

Con Agentic Vision, Google presenta en Gemini 3 Flash una forma distinta de entender imágenes: más parecida a cómo actuaría una persona curiosa con lupa y bloc de notas. La idea es convertir la visión en un proceso activo, no en una interpretación instantánea. En vez de “adivinar” cuando falta contexto, el sistema puede acercarse, recortar, girar o marcar partes concretas para confirmar lo que está viendo y sostener la respuesta sobre evidencia visual. Continúa leyendo «Agentic Vision en Gemini 3 Flash: cuando el modelo “investiga” una imagen en lugar de mirarla una sola vez»

o3 y o4-mini: las nuevas IA de OpenAI que piensan, razonan y programan como nunca antes

La inteligencia artificial no se detiene, y OpenAI acaba de lanzar lo que posiblemente sea el mayor salto cualitativo en IA desde la llegada de GPT-4: los modelos O3 y O4-mini. Estas nuevas versiones no son simples mejoras, sino una evolución profunda que los convierte no solo en modelos, sino en sistemas inteligentes completos capaces de usar herramientas, razonar visualmente y generar ideas originales.

Y sí, todo esto ya está llegando a ChatGPT, incluso para usuarios gratuitos.

Continúa leyendo «o3 y o4-mini: las nuevas IA de OpenAI que piensan, razonan y programan como nunca antes»