Etiqueta: modelo multimodal

Phi-4-reasoning-vision-15B: el modelo multimodal compacto de Microsoft que “piensa” solo cuando conviene

Publicado el 7 marzo, 2026

Microsoft Research ha presentado Phi-4-reasoning-vision-15B, un modelo multimodal de 15.000 millones de parámetros con pesos abiertos, pensado para combinar visión y lenguaje sin disparar costes de cómputo ni latencia. La idea es sencilla de entender con un ejemplo cotidiano: no necesitas sacar una calculadora científica para apuntar un número de teléfono, pero sí para resolver una integral. Este modelo intenta hacer justo eso: responder “directo” cuando la tarea es perceptiva (leer, describir, localizar) y activar un razonamiento más largo cuando el problema lo pide, como en matemáticas y ciencias.

Según Microsoft Research, está disponible en Microsoft Foundry, Hugging Face y GitHub, con un enfoque claro: ofrecer una opción compacta que sea competitiva en tareas clásicas de visión-lenguaje, y especialmente sólida cuando hay que razonar con información visual o entender interfaces. Continúa leyendo «Phi-4-reasoning-vision-15B: el modelo multimodal compacto de Microsoft que “piensa” solo cuando conviene»

T5Gemma 2: el modelo multimodal compacto que redefine los límites del encoder-decoder

Publicado el 19 diciembre, 2025

por Natalia Polo

Google ha presentado T5Gemma 2, una evolución significativa dentro de su familia de modelos encoder-decoder, que ahora integra capacidades multimodales y de contexto extendido. A diferencia de su versión anterior, este modelo no solo reentrena, sino que reestructura profundamente su arquitectura, adoptando muchas de las mejoras de la tecnología Gemma 3, una de las más avanzadas desarrolladas por Google hasta la fecha.

T5Gemma 2 se presenta en varios tamaños que oscilan entre los 270 millones y los 7.000 millones de parámetros, adaptándose tanto a tareas ligeras en dispositivos como a implementaciones más exigentes. La clave está en que estos modelos han sido diseñados para ser eficientes desde el inicio, combinando rendimiento y economía de recursos. Continúa leyendo «T5Gemma 2: el modelo multimodal compacto que redefine los límites del encoder-decoder»

Google presenta Deep Think: su modelo de razonamiento más potente hasta la fecha

Publicado el 4 agosto, 2025

por Natalia Polo

Google ha dado un nuevo paso en el desarrollo de inteligencia artificial avanzada con el lanzamiento de Deep Think, una versión mejorada de su modelo Gemini 2.5. Esta nueva tecnología, orientada al razonamiento complejo, está disponible exclusivamente para los suscriptores del nivel más alto de su servicio AI Ultra, que tiene un coste mensual de 250 dólares. Continúa leyendo «Google presenta Deep Think: su modelo de razonamiento más potente hasta la fecha»

SketchAgent: el sistema de IA que dibuja como lo haría un humano, trazo a trazo

Publicado el 4 junio, 2025

por Natalia Polo

En nuestra vida diaria, solemos dibujar más de lo que imaginamos: bocetos rápidos en una hoja para explicar una idea, un diagrama improvisado en la pizarra o un garabato en una libreta para organizar pensamientos. Dibujar es una forma natural de pensar y comunicar. Pero hasta ahora, la inteligencia artificial no sabía reproducir este proceso tan humano de manera fluida y colaborativa. Continúa leyendo «SketchAgent: el sistema de IA que dibuja como lo haría un humano, trazo a trazo»

Nova Premier: El nuevo cerebro multimodal de Amazon para liderar la inteligencia artificial empresarial

Publicado el 5 mayo, 2025

por Juan Diego Polo

La inteligencia artificial está viviendo una evolución imparable, y Amazon acaba de dar un paso audaz al presentar Nova Premier, su modelo más avanzado hasta la fecha. Este anuncio no es solo una novedad tecnológica más; representa un cambio estratégico en cómo Amazon quiere posicionarse en el competitivo mundo de la IA generativa empresarial.

¿Qué hace tan especial a este nuevo modelo y por qué deberías prestar atención, especialmente si trabajas con tecnología, datos o automatización? Vamos por partes.

Continúa leyendo «Nova Premier: El nuevo cerebro multimodal de Amazon para liderar la inteligencia artificial empresarial»

Gemma 3: el nuevo paso de Google en modelos multimodales con eficiencia mejorada

Publicado el 3 mayo, 2025

por Natalia Polo

Google ha presentado Gemma 3, la nueva versión de su familia de modelos de lenguaje multimodal. Esta entrega no solo hereda mejoras introducidas por sus predecesores, sino que también incorpora funciones nuevas como la capacidad de comprender imágenes, manejar contextos más extensos y ofrecer mejor rendimiento con menor consumo de recursos.

A continuación, te explicamos de forma clara y amigable qué trae de nuevo Gemma 3 y en qué situaciones podrías preferirlo sobre otras versiones. Continúa leyendo «Gemma 3: el nuevo paso de Google en modelos multimodales con eficiencia mejorada»

Llama 4 llega a Vertex AI: potencia multimodal sin complicaciones de infraestructura

Publicado el 30 abril, 2025

por Natalia Polo

La integración de Llama 4 en Vertex AI representa un nuevo paso en el acceso práctico y escalable a modelos de lenguaje avanzados. Meta ha desarrollado una nueva generación de modelos LLM con enfoque multimodal y eficiencia optimizada, y ahora Google Cloud facilita su uso sin necesidad de gestionar infraestructura técnica compleja. En este artículo exploramos qué significa esto, cómo utilizarlo y qué beneficios ofrece este enfoque de Model-as-a-Service (MaaS). Continúa leyendo «Llama 4 llega a Vertex AI: potencia multimodal sin complicaciones de infraestructura»

Más sobre Gemini 2.5 Pro, el modelo de IA que destaca por su razonamiento avanzado y comprensión multimodal

Publicado el 1 abril, 2025

por Natalia Polo

Como ya sabes, Google ha dado un paso importante con el lanzamiento de Gemini 2.5 Pro, un modelo de inteligencia artificial que, aunque no llegó con fanfarrias ni promesas grandilocuentes, está demostrando ser uno de los más útiles hasta ahora en tareas de razonamiento complejo. A pesar de haber sido opacado por otras noticias del mundo AI, como la tendencia viral de imágenes generadas al estilo Studio Ghibli, quienes han probado este nuevo modelo coinciden: es una herramienta potente, versátil y con capacidades que marcan la diferencia en escenarios reales. Continúa leyendo «Más sobre Gemini 2.5 Pro, el modelo de IA que destaca por su razonamiento avanzado y comprensión multimodal»

Alibaba presenta Qwen2.5 Omni: un paso firme hacia la inteligencia artificial multimodal

Publicado el 29 marzo, 2025

por Natalia Polo

Alibaba acaba de dar un golpe sobre la mesa en el competitivo mundo de la inteligencia artificial con el lanzamiento de Qwen2.5-Omni, su nuevo modelo multimodal de código abierto, que no solo entiende texto, imágenes, audio y video, sino que también es capaz de responder en tiempo real tanto por texto como por voz. Pero esto no es solo una mejora técnica: es una apuesta clara por un futuro donde la interacción con la IA sea más natural y rica en matices. Continúa leyendo «Alibaba presenta Qwen2.5 Omni: un paso firme hacia la inteligencia artificial multimodal»

Janus Pro – El modelo de IA de DeepSeek para imágenes

Publicado el 28 enero, 2025

por Juan Diego Polo

¿Te has dado cuenta de cómo la inteligencia artificial (IA) se está metiendo en cada rincón de nuestras vidas? Desde los asistentes de voz que nos ayudan a encontrar recetas, hasta herramientas creativas como generadores de imágenes, parece que cada día hay algo nuevo. Ahora, llega Janus Pro 7B, un modelo que no solo entiende imágenes, sino que también las crea. Sí, y de manos de DeepSeek .

Continúa leyendo «Janus Pro – El modelo de IA de DeepSeek para imágenes»