OpenAI trae capacidades de voz e imagen a ChatGPT, dejando obsoletos a los asistentes virtuales

La semana pasada ya vimos como Amazon no se ha quedado de brazos cruzados con Alexa ante los avances de la Inteligencia Artificial generativa que, como ya comentamos en su momento, estaba dejando obsoletos a los actuales asistentes virtuales.

Pero lo que nos trae a partir de hoy OpenAI hace que ChatGPT comience a ser mucho más que un chatbot, ya que se encuentra introduciendo capacidades de voz e imágenes, y por las posibilidades que ofrece, llega a asemejarse más a un asistente virtual.

Las nuevas capacidades dejan obsoletos a los asistentes virtuales

Una de las solicitudes que pone de ejemplo la compañía en su comunicado es la posibilidad de pedirle que cuente cuentos para los miembros más jóvenes de la familia, algo que hasta ahora se relacionada más a los asistentes virtuales tradicionales.

Y eso no es todo, ya que ChatGPT también admite compartirle fotografías del contenido de la nevera para sugerir recetas de cocina paso a paso. Estos son sólo dos ejemplos de las muchas posibilidades que otorgan las nuevas capacidades de voz y de vídeo, donde además, también ponen de ejemplo la posibilidad de ayudar a los menores en las tareas escolares de matemáticas.

Pero si no se quiere compartir fotografías hechas o disponibles ya en el móvil, los usuarios también podrán realizar dibujos a mano como entrada de imagen a través de las herramientas que tendrán a su disposición.

Mejoras en la interfaz de usuario

Con la llegada de las nuevas capacidades de voz e imagen en ChatGPT, los usuarios también obtendrán un tipo de interfaz nuevo y más intuitivo, aunque su despliegue se llevará a cabo para los usuarios Plus y Enterprise durante las próximas dos semanas tanto en Android como en iOS.

Respecto a las capacidades por voz, OpenAI dice que esta característica se encuentra impulsada por un nuevo modelo de conversión de texto a voz, siendo capaz de generar audio similar al humano a partir de solo texto y unos pocos segundos de muestra de voz.

También señala que ha colaborado con actores de doblaje profesionales para crear cada una de las voces, permitiendo a los usuarios optar por una de las cinco opciones de voces disponibles.

Agregan que también utilizan Whisper, su sistema de reconocimiento de voz de código abierto, para transcribir las palabras habladas de los usuarios en texto.

Respecto a las capacidades de imagen, señalan que la comprensión de las imágenes funciona con GPT-3.5 y GPT-4 multimodales.

A estos modelos aplican sus habilidades de razonamiento lingüístico a una amplia gama de imágenes, como fotografías, capturas de pantalla y documentos que contienen texto e imágenes.

Las nuevas capacidades tendrán un despliegue gradual

En líneas generales, señalan que:

Estamos implementando capacidades de imagen y voz gradualmente El objetivo de OpenAI es crear AGI que sea segura y beneficiosa. Creemos en hacer que nuestras herramientas estén disponibles gradualmente, lo que nos permite realizar mejoras y perfeccionar la mitigación de riesgos con el tiempo y, al mismo tiempo, preparar a todos para sistemas más potentes en el futuro. Esta estrategia se vuelve aún más importante con modelos avanzados que involucran voz y visión.

Desafíos de seguridad a los que tiene que enfrentar

OpenAI es consciente de que las nuevas capacidades de voz e imagen también entraña una serie de riesgos, tanto por el mal uso por parte de malos actores como por el riesgo de alucinaciones, por lo que han tomado una serie de medidas de seguridad, que se irán mejorando a medida de que se vayan usando las nuevas capacidades y recabando comentarios de los usuarios.

Por último, desaconsejan el uso de ChatGPT para casos mayor riesgo sin una verificación adecuada, y desaconsejan las capacidades de voz a usuarios que no sean de habla inglesa.

Más información: OpenAI