ElevenLabs amplía su modelo Eleven V3 con soporte para 70 idiomas: qué significa y por qué importa

Publicado el

Imagen-conceptual-que-representa-la-expansion-multilingue-del-modelo-ElevenLabs-V3-de-sintesis-de-voz-por-inteligencia-artificial.

La tecnología de síntesis de voz por inteligencia artificial está evolucionando rápidamente, y una de las empresas líderes en este campo, ElevenLabs, acaba de dar un paso importante al ampliar su modelo Eleven V3 con soporte para 41 nuevos idiomas. Con esta actualización, su herramienta text-to-speech (TTS) ahora cubre un total de 70 idiomas, lo que la hace accesible para aproximadamente el 90% de la población mundial. Pero, ¿qué implica realmente esta mejora para usuarios, creadores de contenido y empresas?

¿Qué es Eleven V3 y qué lo diferencia de versiones anteriores?

El modelo Eleven V3 es la última versión de la plataforma de síntesis de voz de ElevenLabs. Fue lanzado en versión alfa el 8 de junio de 2025 y se presenta como su modelo más expresivo hasta la fecha. A diferencia de sus predecesores (V2 y V2.5), este modelo no solo ofrece una pronunciación más natural, sino que también incorpora etiquetas de audio como susurros, entusiasmo, suspiros, entre otras.

Estas etiquetas permiten generar locuciones más humanas, cargadas de matices emocionales y expresiones no verbales, lo cual es ideal para aplicaciones en doblaje, videojuegos, podcasts o asistentes virtuales. Es como si un narrador profesional pudiera adaptar su tono y emociones a lo que dice el texto, pero de manera automatizada.

Una expansión lingüística que rompe barreras

Entre los 41 idiomas nuevos incluidos se encuentran el árabe, bengalí, catalán, gujarati, letón, malayo, malayalam, maratí, nepalí, suajili, tamil y telugu, entre muchos otros. Esta expansión no solo incluye idiomas ampliamente hablados, sino también lenguas regionales que suelen estar desatendidas en este tipo de tecnologías.

Imaginemos a un creador de contenido en Assam que ahora puede generar contenido hablado en asamés con calidad profesional, sin necesidad de un locutor. O a una empresa en África oriental que puede ofrecer interfaces habladas en suajili a sus usuarios. Esta inclusión facilita la democratización del contenido sonoro, permitiendo que más personas escuchen, comprendan y se conecten con la información en su lengua materna.

Cómo funciona la clonación instantánea de voz

Para utilizar las nuevas lenguas, ElevenLabs recomienda crear un Instant Voice Clone (IVC), que consiste en grabar una muestra de voz en el idioma deseado. Esto permite que el modelo genere un clon vocal personalizado que respete las particularidades lingüísticas y fonéticas del idioma escogido.

Además, en las próximas semanas la empresa incorporará voces predefinidas a su Voice Library para estos nuevos idiomas, facilitando aún más su uso para quienes no deseen grabar muestras personalizadas.

Conversaciones más realistas con múltiples hablantes

Otra novedad importante es que Eleven V3 permite interacciones multihablante con interrupciones, pausas naturales y diálogos superpuestos. Esto significa que se puede simular una conversación realista entre varias voces, útil en simulaciones, entrenamiento de agentes de atención al cliente o storytelling.

El modelo también mejora el manejo del ritmo, el estrés tonal y el contexto, ajustando la entonación dependiendo del significado y la intención del texto. Es como tener un actor de voz que no solo lee, sino que interpreta lo que dice.

¿Dónde se puede usar Eleven V3?

Actualmente, Eleven V3 está disponible a través del sitio web de ElevenLabs y sus aplicaciones móviles, pero todavía no se ofrece como API. Esto limita su integración en sistemas externos, aunque la empresa ya ha demostrado interés en herramientas empresariales con funciones como el Agent Transfer.

Esta característica, lanzada en abril de 2025, permite que dos agentes conversacionales de IA se transfieran conversaciones entre sí, conservando el contexto y la continuidad. Así, un agente general puede ceder el control a otro especializado (por ejemplo, en soporte técnico) sin perder fluidez.

¿Qué impacto puede tener esta tecnología?

Este tipo de avances abre la puerta a una nueva forma de comunicación global. Desde el acceso a la información hasta la educación, pasando por la creación de contenido y la atención al cliente, las posibilidades son amplias. Una ONG puede difundir mensajes vitales en zonas remotas, una app educativa puede adaptarse a diferentes regiones lingüísticas, y un podcaster puede llegar a nuevas audiencias sin necesidad de traducciones humanas costosas.

Sin embargo, como con toda tecnología potente, también hay desafíos. La clonación de voces y la creación de contenido automatizado con voces realistas plantea preguntas éticas sobre el uso indebido, la desinformación y los derechos de imagen vocal. Es importante que estas herramientas evolucionen de la mano de políticas responsables y controles adecuados.