T5Gemma 2: el modelo multimodal compacto que redefine los límites del encoder-decoder

Google ha presentado T5Gemma 2, una evolución significativa dentro de su familia de modelos encoder-decoder, que ahora integra capacidades multimodales y de contexto extendido. A diferencia de su versión anterior, este modelo no solo reentrena, sino que reestructura profundamente su arquitectura, adoptando muchas de las mejoras de la tecnología Gemma 3, una de las más avanzadas desarrolladas por Google hasta la fecha.

T5Gemma 2 se presenta en varios tamaños que oscilan entre los 270 millones y los 7.000 millones de parámetros, adaptándose tanto a tareas ligeras en dispositivos como a implementaciones más exigentes. La clave está en que estos modelos han sido diseñados para ser eficientes desde el inicio, combinando rendimiento y economía de recursos. Continúa leyendo «T5Gemma 2: el modelo multimodal compacto que redefine los límites del encoder-decoder»

Google presenta Deep Think: su modelo de razonamiento más potente hasta la fecha

Google ha dado un nuevo paso en el desarrollo de inteligencia artificial avanzada con el lanzamiento de Deep Think, una versión mejorada de su modelo Gemini 2.5. Esta nueva tecnología, orientada al razonamiento complejo, está disponible exclusivamente para los suscriptores del nivel más alto de su servicio AI Ultra, que tiene un coste mensual de 250 dólares. Continúa leyendo «Google presenta Deep Think: su modelo de razonamiento más potente hasta la fecha»

SketchAgent: el sistema de IA que dibuja como lo haría un humano, trazo a trazo

En nuestra vida diaria, solemos dibujar más de lo que imaginamos: bocetos rápidos en una hoja para explicar una idea, un diagrama improvisado en la pizarra o un garabato en una libreta para organizar pensamientos. Dibujar es una forma natural de pensar y comunicar. Pero hasta ahora, la inteligencia artificial no sabía reproducir este proceso tan humano de manera fluida y colaborativa. Continúa leyendo «SketchAgent: el sistema de IA que dibuja como lo haría un humano, trazo a trazo»

Nova Premier: El nuevo cerebro multimodal de Amazon para liderar la inteligencia artificial empresarial

La inteligencia artificial está viviendo una evolución imparable, y Amazon acaba de dar un paso audaz al presentar Nova Premier, su modelo más avanzado hasta la fecha. Este anuncio no es solo una novedad tecnológica más; representa un cambio estratégico en cómo Amazon quiere posicionarse en el competitivo mundo de la IA generativa empresarial.

¿Qué hace tan especial a este nuevo modelo y por qué deberías prestar atención, especialmente si trabajas con tecnología, datos o automatización? Vamos por partes.

Continúa leyendo «Nova Premier: El nuevo cerebro multimodal de Amazon para liderar la inteligencia artificial empresarial»

Gemma 3: el nuevo paso de Google en modelos multimodales con eficiencia mejorada

Google ha presentado Gemma 3, la nueva versión de su familia de modelos de lenguaje multimodal. Esta entrega no solo hereda mejoras introducidas por sus predecesores, sino que también incorpora funciones nuevas como la capacidad de comprender imágenes, manejar contextos más extensos y ofrecer mejor rendimiento con menor consumo de recursos.

A continuación, te explicamos de forma clara y amigable qué trae de nuevo Gemma 3 y en qué situaciones podrías preferirlo sobre otras versiones. Continúa leyendo «Gemma 3: el nuevo paso de Google en modelos multimodales con eficiencia mejorada»

Llama 4 llega a Vertex AI: potencia multimodal sin complicaciones de infraestructura

La integración de Llama 4 en Vertex AI representa un nuevo paso en el acceso práctico y escalable a modelos de lenguaje avanzados. Meta ha desarrollado una nueva generación de modelos LLM con enfoque multimodal y eficiencia optimizada, y ahora Google Cloud facilita su uso sin necesidad de gestionar infraestructura técnica compleja. En este artículo exploramos qué significa esto, cómo utilizarlo y qué beneficios ofrece este enfoque de Model-as-a-Service (MaaS). Continúa leyendo «Llama 4 llega a Vertex AI: potencia multimodal sin complicaciones de infraestructura»

Más sobre Gemini 2.5 Pro, el modelo de IA que destaca por su razonamiento avanzado y comprensión multimodal

Como ya sabes, Google ha dado un paso importante con el lanzamiento de Gemini 2.5 Pro, un modelo de inteligencia artificial que, aunque no llegó con fanfarrias ni promesas grandilocuentes, está demostrando ser uno de los más útiles hasta ahora en tareas de razonamiento complejo. A pesar de haber sido opacado por otras noticias del mundo AI, como la tendencia viral de imágenes generadas al estilo Studio Ghibli, quienes han probado este nuevo modelo coinciden: es una herramienta potente, versátil y con capacidades que marcan la diferencia en escenarios reales. Continúa leyendo «Más sobre Gemini 2.5 Pro, el modelo de IA que destaca por su razonamiento avanzado y comprensión multimodal»

Alibaba presenta Qwen2.5 Omni: un paso firme hacia la inteligencia artificial multimodal

Alibaba acaba de dar un golpe sobre la mesa en el competitivo mundo de la inteligencia artificial con el lanzamiento de Qwen2.5-Omni, su nuevo modelo multimodal de código abierto, que no solo entiende texto, imágenes, audio y video, sino que también es capaz de responder en tiempo real tanto por texto como por voz. Pero esto no es solo una mejora técnica: es una apuesta clara por un futuro donde la interacción con la IA sea más natural y rica en matices. Continúa leyendo «Alibaba presenta Qwen2.5 Omni: un paso firme hacia la inteligencia artificial multimodal»

Janus Pro – El modelo de IA de DeepSeek para imágenes

¿Te has dado cuenta de cómo la inteligencia artificial (IA) se está metiendo en cada rincón de nuestras vidas? Desde los asistentes de voz que nos ayudan a encontrar recetas, hasta herramientas creativas como generadores de imágenes, parece que cada día hay algo nuevo. Ahora, llega Janus Pro 7B, un modelo que no solo entiende imágenes, sino que también las crea. Sí, y de manos de DeepSeek .

Continúa leyendo «Janus Pro – El modelo de IA de DeepSeek para imágenes»

Cohere lanza Maya: Un modelo multilingüe y multimodal para romper barreras idiomáticas en la IA

En el apasionante mundo de la inteligencia artificial (IA), la inclusión y la diversidad no solo son importantes, sino esenciales. Cohere, una de las empresas líderes en el desarrollo de modelos de lenguaje, ha dado un paso significativo en esta dirección con el lanzamiento de Maya, un modelo multilingüe y multimodal que busca cerrar brechas culturales y lingüísticas en los modelos de IA.

Continúa leyendo «Cohere lanza Maya: Un modelo multilingüe y multimodal para romper barreras idiomáticas en la IA»