Clonar voces con Inteligencia Artificial usando Mars5

Publicado el

doblar videos

Camb AI, una startup con sede en Dubái, está haciendo ruido en el mundo de la tecnología de inteligencia artificial con el lanzamiento de Mars5, su innovador modelo de clonación de voz. Esta herramienta promete establecer nuevos estándares en la industria, destacándose por su realismo sin precedentes y su soporte para una amplia variedad de idiomas.

La Revolución del Realismo en la Clonación de Voz

Mars5 no es simplemente otro modelo de clonación de voz. Camb AI ha trabajado arduamente para crear una herramienta que captura la esencia de una voz humana, incluyendo sus características más complejas como el ritmo, la emoción y la entonación. Los primeros ejemplos sugieren que el modelo puede replicar estos detalles con una precisión sorprendente.

¿Qué Hace a Mars5 Diferente?

Mars5 se destaca en el mercado por su capacidad para emular no solo la voz original, sino también sus matices emocionales y prosódicos. Esto significa que puede reproducir el tono y la emoción del hablante original, algo que muchas herramientas actuales no logran con la misma precisión.

Soporte Extensivo de Idiomas

Uno de los puntos fuertes de Mars5 es su amplio soporte de idiomas. Mientras que otros modelos, como los de ElevenLabs, soportan alrededor de 36 idiomas, Mars5 cubre más de 140, incluyendo idiomas de baja disponibilidad como el islandés y el swahili. Esto abre nuevas posibilidades para la localización de contenido y la accesibilidad global.

Tecnología Innovadora Detrás de Mars5

El corazón de Mars5 combina dos modelos avanzados: un modelo autoregresivo (AR) de 750 millones de parámetros y un modelo de difusión multinomial no-autoregresivo (NAR) de 450 millones de parámetros. Esta combinación permite a Mars5 capturar y reproducir los detalles más finos del habla humana.

Cómo Funciona Mars5

El proceso es sencillo para el usuario. Solo se necesita subir un archivo de audio de unos pocos segundos a un minuto y proporcionar el texto deseado. Mars5 se encargará del resto, utilizando la voz del archivo como referencia para sintetizar el texto con una precisión sorprendente.

Con su tecnología para doblar vídeos también podemos subir o indicar un vídeo de youtube y decir en qué idioma lo queremos, y la voz se transformará automáticamente, todo desde camb.ai.

 

Mirad el vídeo original y el doblado con Inteligencia Artificial:

Original:

Doblado con IA

Capacidades Emocionales

Una de las características más destacadas de Mars5 es su capacidad para captar diversos tonos emocionales. Esto lo hace ideal para contenidos que tradicionalmente han sido difíciles de convertir en discurso sintético, como los comentarios deportivos, películas y anime.

Más Allá de la Clonación de Voz: El Modelo Boli

Además de Mars5, Camb AI está desarrollando Boli, un modelo de traducción diseñado para ofrecer una comprensión contextual, gramática correcta y uso coloquial natural. Boli promete superar a los motores de traducción tradicionales como Google Translate y DeepL, especialmente en idiomas de recursos bajos a medios.

Aplicaciones del Mundo Real

Camb AI ya ha trabajado con organizaciones importantes, incluyendo Major League Soccer y Tennis Australia. Un logro notable fue la transmisión en vivo de un juego de la Major League Soccer en cuatro idiomas simultáneamente durante más de dos horas, un hito en la industria.

Integración y Futuro

Camb AI planea seguir mejorando Mars5 con el apoyo de la comunidad de código abierto. Las futuras actualizaciones se lanzarán en GitHub, permitiendo a los desarrolladores y empresas integrar estas avanzadas capacidades de clonación de voz y traducción en sus propias plataformas.