Alibaba presenta Qwen2.5 Omni: un paso firme hacia la inteligencia artificial multimodal

Publicado el

Imagen conceptual sobre la IA multimodal Qwen2.5 Omni, mostrando una cabeza abstracta con fragmentos de código, ondas de audio e iconos multimedia, simbolizando cómo la inteligencia artificial puede ver, escuchar y hablar al mismo tiempo. Estilo surrealista y minimalista con fondo blanco

Alibaba acaba de dar un golpe sobre la mesa en el competitivo mundo de la inteligencia artificial con el lanzamiento de Qwen2.5-Omni, su nuevo modelo multimodal de código abierto, que no solo entiende texto, imágenes, audio y video, sino que también es capaz de responder en tiempo real tanto por texto como por voz. Pero esto no es solo una mejora técnica: es una apuesta clara por un futuro donde la interacción con la IA sea más natural y rica en matices.

¿Qué es Qwen2.5-Omni?

Imagina una IA que puede observar una imagen, escuchar un audio, entender un video y conversar contigo, todo al mismo tiempo, como si hablara contigo cara a cara. Eso es Qwen2.5-Omni. Es el nuevo modelo insignia de Alibaba dentro de la familia Qwen, diseñado para ofrecer una percepción multimodal de extremo a extremo.

Esto significa que puede procesar múltiples tipos de información a la vez (texto, imágenes, audio y video) y generar respuestas coherentes y relevantes, tanto en texto como por voz, en tiempo real. Y sí, todo esto en un solo modelo.

En palabras simples, es como tener un asistente que puede ver, oír, hablar y escribir al mismo tiempo sin confundirse. Y lo mejor: es de código abierto bajo licencia Apache 2.0, lo que permite a desarrolladores y empresas experimentar, adaptar y utilizar esta tecnología sin restricciones excesivas.

El corazón del modelo: Thinker-Talker

Una de las innovaciones más llamativas de Qwen2.5-Omni es su arquitectura Thinker-Talker. Suena como el dúo dinámico de una serie animada, pero aquí se refiere a cómo el modelo divide sus funciones de procesamiento.

  • El Thinker (el que piensa) es un decodificador tipo Transformer, encargado de interpretar la información de entrada y tomar decisiones. Es como el cerebro de la operación.

  • El Talker (el que habla) es una arquitectura Transformer autorregresiva de doble vía, especializada en generar respuestas en lenguaje natural, tanto escritas como habladas. Es decir, es la «boca» de la IA.

Esta separación permite que el modelo procese de forma más eficiente y natural, manteniendo conversaciones fluidas y adecuadas al contexto.

¿Qué tan bueno es Qwen2.5-Omni?

Desde wwwhatsnew.com creemos que la competencia en el mundo de los modelos multimodales se está intensificando, y Qwen2.5-Omni no llega solo a participar, sino a destacar.

Alibaba ha publicado resultados donde este modelo supera a sus predecesores y a otros modelos similares de la competencia en tareas que requieren combinar diferentes modalidades, como:

  • Reconocimiento de voz

  • Traducción automática

  • Comprensión de audio y video

  • Generación de voz y lenguaje

Fue comparado con modelos como Qwen2.5-VL-7B, Qwen2-Audio y Gemini 1.5 Pro, y salió ganando en varios benchmarks. Esto no es menor si consideramos que algunos de esos modelos son de código cerrado y altamente especializados.

¿Dónde se puede probar?

Alibaba ha sido muy transparente con este lanzamiento. El modelo y el código fuente están disponibles en GitHub, y también puede probarse en Hugging Face, una plataforma ampliamente utilizada por la comunidad de inteligencia artificial. Ahí mismo se encuentra un demo para quienes quieran experimentar sin necesidad de instalar nada.

Esto facilita la adopción por parte de empresas, investigadores y desarrolladores curiosos que quieran explorar sus capacidades y construir nuevas aplicaciones sobre él.

Voz y video: nueva funcionalidad en Qwen Chat

Qwen Chat, el asistente conversacional de Alibaba basado en esta familia de modelos, también ha recibido una importante actualización: ahora incluye chat por voz y video. Es decir, los usuarios no solo pueden escribir para interactuar con la IA, sino que pueden hablarle y recibir respuestas orales, o incluso integrar contenido visual en la conversación.

Esto se traduce en experiencias mucho más ricas, como tutorías educativas donde la IA explica con voz y apoya con imágenes o videos, o asistentes virtuales capaces de guiar en tiempo real a través de una receta, una reparación o una clase.

Yo creo que esto acerca la experiencia de usuario a algo mucho más cercano a lo humano, y reduce la barrera tecnológica para muchas personas que no están acostumbradas a escribir comandos o formular preguntas técnicas.

La apuesta de largo plazo: más inteligencia, más accesibilidad

Qwen2.5-Omni no es un movimiento aislado. Alibaba ya venía calentando motores con el reciente lanzamiento de QwQ-Max-Preview, un modelo orientado a tareas de razonamiento lógico, matemáticas y programación.

Este modelo, también parte de la familia Qwen, mostró un rendimiento superior incluso al de OpenAI en la clasificación LiveCodeBench, lo cual nos indica que Alibaba no solo quiere modelos multimodales, sino también especializados y precisos en áreas complejas.

Lo más interesante es que se espera que estas tecnologías lleguen a dispositivos locales en versiones más pequeñas, y que exista una aplicación móvil dedicada, lo cual democratizaría el acceso y permitiría usar estas herramientas sin necesidad de conexión constante a la nube.

Desde WWWhatsnew.com consideramos muy positivo que estas soluciones estén pensadas tanto para grandes empresas como para usuarios individuales. La IA no debería ser un privilegio técnico, sino una herramienta útil y práctica para todos.

Una inversión de peso

Todo este desarrollo tiene detrás un compromiso económico colosal: Alibaba anunció una inversión de más de 52.000 millones de dólares en inteligencia artificial para los próximos tres años. Este presupuesto no solo respalda la creación de modelos más sofisticados, sino también la infraestructura necesaria para implementarlos a gran escala.

La visión de la compañía está clara: construir una plataforma de IA integral, accesible y competitiva, capaz de rivalizar con los gigantes del sector como OpenAI, Google DeepMind o Anthropic.

¿Qué podemos esperar?

Qwen2.5-Omni abre la puerta a una nueva generación de asistentes virtuales más intuitivos, accesibles y capaces. Desde asistentes educativos hasta interfaces de accesibilidad para personas con discapacidades visuales o auditivas, las aplicaciones son tan amplias como nuestra imaginación lo permita.

En mi opinión, el verdadero valor de estas tecnologías no está solo en su potencia técnica, sino en su capacidad de integrarse en nuestra vida diaria de forma natural. Y si Alibaba mantiene el ritmo, estaremos viendo muchas más novedades en los próximos meses.