Clonación de voz usando la nueva app OpenVoice

Juan Diego Polo

hace 2 años

Recientemente, he tenido la oportunidad de explorar una innovación significativa en el campo de la inteligencia artificial: OpenVoice, desarrollada por la empresa MyShell. Esta herramienta ofrece una clonación de voz con un nivel de precisión y control que no había visto antes. Vamos a adentrarnos en los detalles de esta tecnología que está marcando un antes y un después en el ámbito de la IA.

Así es, MyShell ha lanzado OpenVoice, una herramienta de clonación de voz que tiene la capacidad para clonar voces con un control detallado sobre aspectos como el tono, la emoción y el acento, usando solo un pequeño clip de audio. Este desarrollo se describe en un documento de investigación revisado previamente y está disponible para que los usuarios lo prueben tanto en la interfaz de la aplicación web de MyShell (requiere cuenta de usuario) como en HuggingFace (accesible públicamente sin cuenta).

En un intercambio por correo electrónico con VentureBeat, Zengyi Qin, investigador líder de MIT y MyShell, expresó el compromiso de la compañía de beneficiar a toda la comunidad de investigación. La filosofía de MyShell, «AI for All», implica planes futuros para proporcionar subvenciones, conjuntos de datos y potencia de cómputo para apoyar la investigación de código abierto. Este enfoque subraya su dedicación no solo a innovar, sino también a compartir y fomentar el crecimiento en el campo de la IA.

La elección de MyShell de comenzar con un modelo de inteligencia artificial de clonación de voz de código abierto se basa en la importancia de las modalidades de lenguaje, visión y voz para la Inteligencia General Artificial (AGI). Aunque ya existen modelos de código abierto para lenguaje y visión, la clonación de voz ha sido un área menos desarrollada, especialmente en lo que respecta a modelos instantáneos y personalizables. Esto motivó a MyShell a llenar este vacío.

Mi experiencia personal con OpenVoice

Al probar OpenVoice en MyShell, me sorprendió la capacidad de generar una clonación de mi propia voz, aunque con un tono algo robótico, en segundos y con un discurso aleatorio. A diferencia de otras aplicaciones, no necesité leer un texto específico; simplemente hablé por unos segundos y el modelo generó un clon de mi voz que pude reproducir casi inmediatamente. Además, la función para ajustar el «estilo» de la voz a diferentes emociones resultó ser impresionantemente efectiva.

Tuve que sibir el audio generado antes, 29 segundos en este caso. Mi audio estaba en castellano, pero el texto que se ha de generar ha de ser en inglés.

Una vez tenemos el archivo de audio y el texto que quiero generar con mi voz, puedo especificar la emoción, tal y como se aprecia en la imagen superior.

El texto resultante, muy logrado, puede modificarse en cualquier momento cambiando los parámetros. De esa manera es posible volver a indicar la emoción.

Nada más comenzar tengo 60 créditos para hacer pruebas. Con esta ya he consumido 10, pero después me van dando 2 créditos más por hora, por lo que cada 5 horas podré hacer un archivo nuevo.

Tecnología detrás de OpenVoice

El equipo de MyShell, compuesto por Qin, Wenliang Zhao y Xumin Yu de la Universidad de Tsinghua, y Xin Sun de MyShell, describe en su documento científico cómo OpenVoice integra dos modelos de IA: un modelo de texto a voz (TTS) y un «convertidor de tono». El modelo TTS controla los parámetros de estilo y idiomas, entrenado en muestras de audio de hablantes en inglés, chino y japonés, etiquetados según la emoción expresada. El modelo convertidor de tono, entrenado en una amplia gama de muestras de audio, permite la reproducción de la voz del usuario y el cambio en la «coloración del tono» o expresión emocional del texto hablado.

Este enfoque, aunque conceptualmente simple, demuestra ser efectivo y requiere menos recursos de cómputo en comparación con otros métodos, como el modelo rival de Meta, Voicebox. La flexibilidad y adaptabilidad a cualquier idioma hacen de OpenVoice una herramienta pionera en el campo de la clonación de voz.

Recordad que hace pocas semanas hice pruebas con la herramienta de Meta y os dejé los resultados en este artículo.

MyShell, fundada en 2023 en Calgary, Alberta, Canadá, ha crecido rápidamente, atrayendo a más de 400.000 usuarios. La empresa se describe como una plataforma descentralizada y completa para descubrir, crear y apostar por aplicaciones nativas de IA. Además de OpenVoice, MyShell ofrece una variedad de personajes y bots de IA basados en texto, un creador de GIF animados y RPGs basados en texto creados por usuarios.