Así es el nuevo modo de voz de ChatGPT, hiperrealista

OpenAI ha dado un gran paso adelante con la implementación de su Modo Avanzado de Voz en ChatGPT, con voces hiperrealistas, ofreciendo una experiencia de conversación más realista para los usuarios. ¿qué significa realmente esta nueva función y cómo afecta a los usuarios?

OpenAI ha introducido una innovación considerable en el campo de los asistentes virtuales con el lanzamiento de su nuevo chatbot habilitado para voz, ChatGPT, el cual estará disponible inicialmente para un grupo reducido de usuarios hoy y para todos los suscriptores de ChatGPT Plus en otoño. Este avance representa un paso significativo hacia asistentes AI más completos y capaces, comparables a Siri o Alexa pero con habilidades más avanzadas para conversaciones naturales y fluidas.

La versión de voz, basada en el modelo GPT-4o de OpenAI, no solo maneja texto y visión, sino que también comprende diferentes tonos de voz y puede responder a interrupciones en tiempo real, además de ser capaz de expresar una amplia gama de emociones de manera más natural. OpenAI ha implementado varias medidas de seguridad, incluyendo la creación de cuatro voces preestablecidas en colaboración con actores de voz para evitar el uso del modelo para crear deepfakes auditivos.

La Innovación de GPT-4o

Todo comenzó en mayo de 2024, cuando OpenAI presentó una demostración de GPT-4o, la versión mejorada de su famoso modelo de lenguaje. Lo que más sorprendió a todos fue la capacidad del sistema para generar respuestas de voz hiperrealistas que no solo imitaban el habla humana, sino que también captaban entonaciones emocionales. Esto significa que ahora ChatGPT puede responder de manera más matizada, reconociendo tonos de tristeza, alegría o incluso canto.

Este desarrollo no solo mejora la interacción, sino que también reduce significativamente la latencia, haciendo que las conversaciones sean más fluidas y naturales. En lugar de usar tres modelos separados para convertir voz a texto, procesar la solicitud y luego convertir texto a voz, GPT-4o realiza todas estas tareas de manera integrada. Esto es posible gracias a su naturaleza multimodal, una característica que marca una diferencia notable en la experiencia del usuario.

El Controversial Debut de «Sky»

Uno de los momentos más comentados de esta actualización fue la controversia alrededor de la voz «Sky», que muchos notaron se parecía a la de Scarlett Johansson, la actriz que dio vida a un asistente virtual en la película «Her». Esta similitud llevó a Johansson a tomar medidas legales, argumentando que OpenAI había usado su voz sin permiso. Aunque la compañía negó estas acusaciones, finalmente retiró la voz de la demo.

Es interesante ver cómo la tecnología, que está destinada a mejorar nuestras vidas, puede generar problemas legales y éticos. Este incidente nos recuerda la importancia de manejar con cuidado la propiedad intelectual y los derechos de las personas, especialmente cuando se trata de tecnologías que pueden imitar la realidad de manera tan convincente.

Limitaciones y Precauciones

Para evitar problemas similares en el futuro, OpenAI ha decidido limitar el uso del Modo Avanzado de Voz a cuatro voces predeterminadas: Juniper, Breeze, Cove y Ember, todas creadas con la ayuda de actores de voz profesionales. La compañía ha implementado filtros para evitar la generación de música o cualquier otro tipo de audio que pueda infringir derechos de autor. Esto es especialmente relevante dado el historial de litigios que ha rodeado a otras empresas de IA, como ElevenLabs, cuya tecnología de clonación de voz fue utilizada para suplantar a figuras públicas.

La precaución con la que OpenAI está manejando este lanzamiento refleja un enfoque responsable hacia la innovación. Es crucial para empresas como OpenAI no solo avanzar tecnológicamente, sino también garantizar que estos avances no se utilicen de manera perjudicial o poco ética.

A partir de hoy, algunos usuarios de pago podrán probar las voces hiperrealistas de OpenAI

La Experiencia del Usuario

Para los usuarios de ChatGPT Plus que ya tienen acceso a esta función, la experiencia promete ser bastante emocionante. Ahora, no solo pueden escribir para interactuar con el asistente, sino que también pueden hablarle y recibir respuestas de voz. Esta funcionalidad abre una nueva dimensión de posibilidades, especialmente para aquellos que buscan una interacción más humana y menos mecanizada con sus asistentes digitales.

En WWWhatsnew.com, hemos seguido de cerca estos desarrollos, ya que entendemos el impacto que tienen en nuestra vida diaria y en la forma en que interactuamos con la tecnología. Las posibilidades de aplicaciones para esta tecnología son vastas, desde asistentes personales más eficientes hasta nuevas formas de entretenimiento y educación.

En mi opinión, el Modo Avanzado de Voz de ChatGPT es un ejemplo fascinante de cómo la inteligencia artificial está evolucionando para parecerse cada vez más a los humanos. Sin embargo, con esta evolución vienen nuevas responsabilidades y desafíos. ¿Hasta dónde estamos dispuestos a dejar que la tecnología imite la realidad? ¿Cómo podemos asegurarnos de que se utilice de manera ética y segura? Estas son preguntas importantes que debemos considerar mientras avanzamos hacia un futuro cada vez más digitalizado.