Etiqueta: multimodal

Grok ya es gratis para todos, y hace imágenes con Aurora

Publicado el 10 diciembre, 2024

Como ya sabéis, Grok, la IA que hay en Twitter (X) ya es gratis para todos, pero ahora han incluido un nuevo modelo de creación de imágenes.

Así es, la generación de imágenes ha alcanzado un nuevo nivel gracias a Aurora, el modelo más reciente de Grok. Este modelo avanzado, ahora disponible en la plataforma 𝕏, promete redefinir los estándares en la creación de imágenes realistas y artísticas.

Continúa leyendo «Grok ya es gratis para todos, y hace imágenes con Aurora»

Meta Spirit LM: La revolución de la inteligencia artificial en texto y voz

Publicado el 20 octubre, 2024

por Juan Diego Polo

¿Te imaginas tener una conversación con un asistente virtual que no solo entiende lo que dices, sino que también responde con un tono amigable o hasta emocionado? Meta acaba de dar un paso enorme en esa dirección con Meta Spirit LM, su nuevo modelo de lenguaje multimodal que integra tanto texto como voz de una manera sorprendentemente natural. Pero espera, no estamos hablando de cualquier IA que convierta texto en voz robótica. Esta es capaz de captar emociones y expresarlas al interactuar contigo. Vamos a echarle un vistazo más de cerca.

Continúa leyendo «Meta Spirit LM: La revolución de la inteligencia artificial en texto y voz»

OpenAI lanza un GPT-4o mejorado: ¿Qué cambia con esta nueva versión?

Publicado el 15 agosto, 2024

por Juan Diego Polo

OpenAI ha hecho algo que ya se está volviendo una costumbre en la industria de la inteligencia artificial: lanzar actualizaciones importantes sin hacer mucho ruido. La semana pasada, la compañía presentó su nueva versión del modelo GPT-4o, una evolución del conocido GPT-4, y las reacciones no se hicieron esperar. Aunque en primera instancia puede parecer una actualización más, hay varias razones por las que deberíamos prestarle atención, especialmente si somos usuarios habituales de ChatGPT o desarrolladores que dependen de la API de OpenAI.

Continúa leyendo «OpenAI lanza un GPT-4o mejorado: ¿Qué cambia con esta nueva versión?»

Gemini para android ya disponible en España

Publicado el 5 junio, 2024

por Juan Diego Polo

Google ha dado un paso importante al expandir su aplicación móvil Gemini a varios países europeos, incluyendo España y el Reino Unido. Esta aplicación, diseñada para facilitar la vida de los usuarios, ahora está disponible en más idiomas y ofrece una variedad de funciones innovadoras que permiten colaborar y crear con mayor eficiencia.

Continúa leyendo «Gemini para android ya disponible en España»

GPT-4o, la gran novedad en ChatGPT

Publicado el 13 mayo, 2024

por Juan Diego Polo

OpenAI ha sacado a relucir su nuevo modelo, GPT-4o, un nuevo modelo del querido ChatGPT. Mira Murati, la CTO de OpenAI, ha sido la encargada de presentar esta novedad que nos ha sorprendido gratamente.

Continúa leyendo «GPT-4o, la gran novedad en ChatGPT»

Llama 3 será más poderoso que ChatGPT Plus, y llegará en julio

Publicado el 29 febrero, 2024

por Juan Diego Polo

Llama, Gemini y GPT se están dividiendo el mundo de la IA Generativa (Meta, Google y OpenAi con el apoyo de Microsoft), y ahora llega el anuncio de Llama 3 para calentar más el ambiente.

Así es, en julio, el mundo de la tecnología y la inteligencia artificial se prepara para recibir a Llama 3, la última innovación de Meta que promete marcar un antes y un después en el ámbito de los modelos de lenguaje. Según fuentes cercanas a la compañía y reportes de The Information, esta nueva versión está diseñada para no solo superar los 140 mil millones de parámetros de su antecesor, Llama 2, sino también para ofrecer una competencia directa a GPT-4, el gigante actual de OpenAI.

Continúa leyendo «Llama 3 será más poderoso que ChatGPT Plus, y llegará en julio»

Meta presenta CM3leon, para pasar de texto a imagen

Publicado el 14 julio, 2023

por Juan Diego Polo

El modelo CM3leon (chameleon), una nueva propuesta en el campo de la Inteligencia Artificial (IA) generativa, irrumpe en el sector con la promesa de convertirse en un hito gracias a su capacidad para transformar texto en imágenes, y viceversa. Continúa leyendo «Meta presenta CM3leon, para pasar de texto a imagen»

Así será GPT-4, el sucesor de ChatGPT que se presentará esta semana

Publicado el 14 marzo, 2023

por Juan Diego Polo

Mientras aún nos estamos acostumbrando a la existencia de ChatGPT y asumiendo cómo cambiará nuestras vidas, ya se está anunciando su gran evolución, GPT-4.

Este próximo 16 de marzo de 2023 será un día para recordar en la historia de la inteligencia artificial, ya que Microsoft lanzará GPT-4, una nueva versión del famoso chatbot inteligente, ChatGPT. Esta nueva versión, desarrollada en colaboración con OpenAI, será un avance sin precedentes en la industria de los chatbots, ya que incluirá soporte multimodal, permitiendo al usuario interactuar con el chatbot no solo mediante texto, sino también mediante audio, imágenes y video. Continúa leyendo «Así será GPT-4, el sucesor de ChatGPT que se presentará esta semana»

PaLM-E, lo nuevo de Google, un modelo de lenguaje multimodal para la robótica

Publicado el 13 marzo, 2023

por Juan Diego Polo

El equipo de Investigación en Robótica de Google ha desarrollado un nuevo modelo de lenguaje y robótica, PaLM-E, que combina la capacidad de los grandes modelos de lenguaje con los datos de los sensores de los robots. PaLM-E es un modelo generalista, capaz de realizar tareas tanto de visión como de lenguaje, así como de controlar robots y aprender de manera eficiente. Continúa leyendo «PaLM-E, lo nuevo de Google, un modelo de lenguaje multimodal para la robótica»

Microsoft presenta Kosmos-1, para entender el contenido de imágenes y resolver acertijos visuales

Publicado el 2 marzo, 2023

por Juan Diego Polo

Las tecnologías de inteligencia artificial (IA) siguen avanzando, y Microsoft ha presentado su modelo Kosmos-1, un sistema multimodal capaz de analizar imágenes, resolver acertijos visuales, realizar reconocimiento de texto visual, pasar pruebas de coeficiente intelectual visual y entender instrucciones en lenguaje natural. ¿Qué es lo que hace a Kosmos-1 diferente de otros modelos de IA? Su enfoque multimodal. Continúa leyendo «Microsoft presenta Kosmos-1, para entender el contenido de imágenes y resolver acertijos visuales»