Google Gemini ya permite subir archivos de audio: lo que debes saber

Google acaba de incorporar una mejora significativa en su asistente de inteligencia artificial Gemini: la posibilidad de subir archivos de audio para analizarlos, transcribirlos o resumir su contenido. Esta función era una de las más solicitadas por la comunidad desde que se habilitó la carga de archivos en la plataforma, y ahora, tras una actualización silenciosa, finalmente está disponible en Android, iOS y también en la versión web.

Josh Woodward, vicepresidente de Google Labs y responsable de Gemini, confirmó la noticia a través de su cuenta en X (antes Twitter), calificando esta mejora como la “solicitud número uno” de los usuarios. Y no es para menos. Desde hace meses, Gemini podía procesar imágenes, documentos PDF, e incluso videos, pero la ausencia del audio se sentía como una omisión extraña, especialmente en un mundo donde las notas de voz, los podcasts y los mensajes grabados se han vuelto parte esencial de la vida digital cotidiana. Continúa leyendo «Google Gemini ya permite subir archivos de audio: lo que debes saber»

Google Gemini ahora puede conectarse directamente a proyectos en GitHub: lo que debes saber

Google sigue dando pasos para fortalecer su posición en el competitivo mundo de la inteligencia artificial. Su chatbot Gemini, impulsado por IA, ahora incorpora una función muy esperada: la integración con GitHub. Esta nueva capacidad está disponible exclusivamente para los usuarios del plan Gemini Advanced, que tiene un costo mensual de 20 dólares.

Con esta integración, los desarrolladores pueden conectar tanto repositorios públicos como privados desde GitHub directamente en la interfaz de Gemini. El objetivo es facilitar tareas como la generación de código, la depuración de errores y la explicación de fragmentos complejos. Continúa leyendo «Google Gemini ahora puede conectarse directamente a proyectos en GitHub: lo que debes saber»

Google Gemini ahora permite subir varias imágenes por prompt: así puedes aprovecharlo

Google sigue puliendo las capacidades de Gemini, su inteligencia artificial generativa, y una de las novedades más comentadas en los últimos días es la posibilidad de subir varias imágenes a un solo prompt desde su interfaz web. Aunque la funcionalidad está en despliegue gradual y aún no está disponible para todos los usuarios, representa un cambio interesante en la forma en que se puede interactuar con este modelo de IA.

¿Qué significa subir múltiples imágenes?

Hasta hace poco, al usar Gemini para generar contenido visual o responder preguntas basadas en imágenes, sólo se podía cargar una imagen por prompt. Esto limitaba las posibilidades de análisis cruzado o de combinación creativa.

Con la nueva funcionalidad, algunos usuarios con suscripción Gemini Advanced han podido subir dos o más imágenes al mismo tiempo. Por ejemplo, combinar personajes de distintas imágenes en una sola escena, o analizar diferentes ángulos de un mismo objeto para obtener una descripción más precisa.

¿Para qué sirve esta mejora?

Este tipo de actualización abre nuevas posibilidades tanto para la educación como para la creatividad visual. Veamos algunos ejemplos prácticos:

  • Identificación de especies: subir varias fotos de una planta desde diferentes ángulos (hojas, flores, tallo) puede ayudar a obtener una identificación más precisa.
  • Diseño y creatividad: artistas digitales pueden mezclar varios bocetos o referencias visuales en una sola petición.
  • Comparaciones visuales: analizar similitudes o diferencias entre varios objetos sin tener que hacer varias consultas separadas.

Es como pasar de tener una lupa a contar con una mesa de trabajo completa, donde se pueden disponer varios elementos a la vez para analizarlos en conjunto.

Quién puede usarlo

Por el momento, la posibilidad de subir múltiples imágenes está limitada a algunos usuarios con la suscripción Gemini Advanced y el modelo Gemini 2.0 Flash activado. Esto indica que Google está realizando un lanzamiento por etapas, algo habitual en sus productos, para ir evaluando el rendimiento y la experiencia del usuario.

Aunque no se ha confirmado si esta funcionalidad llegará a los usuarios gratuitos, la comunidad espera que eventualmente se extienda a más personas.

Cómo saber si ya tienes acceso

Para comprobar si ya puedes usar la carga múltiple de imágenes:

  1. Abre la versión web de Gemini.
  2. Inicia sesión con tu cuenta con suscripción avanzada.
  3. Intenta arrastrar varias imágenes a la caja del prompt o haz clic en el símbolo de «+».
  4. Si aparece un mensaje como «Solo se admite un archivo de imagen», significa que aún no tienes acceso.

Potencial creativo: un vistazo al futuro

Las aplicaciones creativas son posiblemente las más emocionantes. Usuarios como el de Reddit Gaiden206 ya han mostrado ejemplos donde personajes de distintas ilustraciones son fusionados en una escena conjunta. Es como tener una herramienta de collage digital guiada por inteligencia artificial, capaz de entender el contexto y el estilo de cada imagen.

Este tipo de uso podría facilitar desde la creación de storyboards hasta el diseño de escenarios ficticios para videojuegos, pasando por contenidos para redes sociales o incluso libros ilustrados.

Lo que aún falta

Aunque esta mejora es notable, también hay que reconocer sus límites actuales:

  • Disponibilidad restringida: como se mencionó, no todos pueden acceder todavía.
  • Falta de documentación oficial: Google aún no ha publicado una guía clara sobre esta función.
  • Posibles errores o imprecisiones: al ser una función nueva, es posible que el procesamiento de varias imágenes simultáneas aún tenga fallos.

Sin embargo, todo apunta a que estas limitaciones se irán resolviendo en las próximas semanas o meses.

Recomendaciones si estás interesado en probarlo

  • Actualiza tu suscripción si estás usando Gemini gratis y deseas explorar funciones más avanzadas.
  • Prepara tus imágenes con calidad adecuada: cuanto más clara y relevante sea la imagen, mejores resultados obtendrás.
  • Redacta prompts específicos: si subes varias imágenes, explica qué quieres que haga la IA con cada una.
  • Experimenta y documenta: prueba diferentes combinaciones y comparte tus resultados con la comunidad, esto ayuda a mejorar el producto.

La posibilidad de trabajar con varias imágenes por prompt en Gemini se siente como un paso natural hacia interfaces de IA más visuales, contextuales y colaborativas. No se trata solo de generar contenido, sino de abrir puertas a nuevas formas de comunicarnos con las máquinas usando lenguajes mixtos: texto, imagen, y quizá pronto video o sonido.

Veo 2: Ya puedes probar la nueva herramienta de Google que transforma tus ideas en videos de 8 segundos

Google sigue empujando los límites de la creatividad digital con el lanzamiento de Veo 2, su nuevo modelo de generación de video mediante inteligencia artificial, integrado en Gemini Advanced y Whisk Animate. Esta nueva función permite convertir descripciones de texto o imágenes en clips animados de alta calidad, de hasta ocho segundos. Aunque la duración es corta, las posibilidades creativas son sorprendentes.

Si alguna vez soñaste con ver cómo se mueve una escena que solo vivía en tu imaginación, o si querías animar una imagen con un toque de magia visual, esta nueva herramienta puede ser justo lo que estabas esperando. Vamos a explorar cómo funciona, qué puedes hacer con ella, y qué debes tener en cuenta antes de lanzarte a crear tus propios clips. Continúa leyendo «Veo 2: Ya puedes probar la nueva herramienta de Google que transforma tus ideas en videos de 8 segundos»

Así funciona Gemini en Google Slides: crea presentaciones con solo escribir lo que necesitas

Las presentaciones son una herramienta esencial tanto en el ámbito laboral como educativo, pero construir una desde cero puede convertirse en una tarea tediosa y lenta. Elegir los títulos, estructurar la información, encontrar imágenes apropiadas… todo suma tiempo. Por eso, la integración de Gemini en Google Slides promete ser un gran aliado para quienes buscan automatizar esta parte del proceso con ayuda de la inteligencia artificial.

En WWWhatsnew.com nos gusta probar a fondo estas novedades antes de recomendarlas, y eso hicimos con Gemini: nos propusimos crear una presentación completa solo con indicaciones escritas, y esto fue lo que descubrimos.

Continúa leyendo «Así funciona Gemini en Google Slides: crea presentaciones con solo escribir lo que necesitas»

5 razones por las que Gemini Advanced supera a ChatGPT Plus

Elegir entre las herramientas disponibles puede ser una tarea desafiante, especialmente cuando las opciones son tan potentes como Gemini Advanced de Google y ChatGPT Plus de OpenAI. Ambas plataformas tienen características destacadas, pero tras probar ambas, he encontrado que Gemini Advanced se adapta mejor a mis necesidades. A continuación, exploraré cinco razones clave que respaldan esta preferencia.

Continúa leyendo «5 razones por las que Gemini Advanced supera a ChatGPT Plus»

Google Gemini y Gemini Advanced: ¿Cuál es la diferencia?

La inteligencia artificial se ha convertido en el tema del momento, y Google está liderando la conversación con su nueva herramienta, Google Gemini. Este asistente de inteligencia artificial no solo reemplaza al anterior Google Bard, sino que también se presenta como una alternativa robusta a ChatGPT de OpenAI. Durante el evento Made By Google 2024, se mostró cómo Gemini puede ayudarte a escribir poemas, generar código o incluso planificar unas vacaciones. Pero si pensabas que eso era todo, te equivocas. Google también ha lanzado una versión más potente: Gemini Advanced. Vamos a explorar qué hace diferente a esta nueva versión y por qué podría interesarte.

Continúa leyendo «Google Gemini y Gemini Advanced: ¿Cuál es la diferencia?»