DeepL ya no solo traduce texto: lanza traducción voz a voz completa para reuniones, móviles y trabajadores de primera línea, con API para call centers

DeepL, la empresa alemana que durante años ha sido referencia en traducción de texto, ha lanzado este 16 de abril un suite completo de traducción voz a voz que cubre reuniones (con add-ons para Zoom y Microsoft Teams), conversaciones en móvil y web, y conversaciones grupales para trabajadores de primera línea a través de apps personalizadas. Además, publica una API que permite a terceros integrar la tecnología en sus propios productos, con los call centers como caso de uso principal. Lo reporta Ivan Mehta en TechCrunch, con declaraciones del CEO Jarek Kutylowski. El movimiento convierte a DeepL de un competidor de Google Translate a un competidor directo de startups como Sanas (65 millones de dólares de Quadrille Capital), Camb.AI (doblaje para Amazon y entretenimiento) y Palabra (respaldada por Seven Seven Six de Alexis Ohanian), todas trabajando en traducción de voz en tiempo real.

El equilibrio entre latencia y precisión que define la traducción de voz

Kutylowski explicó a TechCrunch que el mayor desafío técnico es el equilibrio entre latencia (el retardo entre hablar y escuchar la traducción) y precisión. Un sistema muy rápido pero impreciso es inútil en una negociación comercial; uno preciso pero con tres segundos de retardo rompe el flujo natural de la conversación. El stack actual de DeepL convierte voz a texto, aplica traducción y reconvierte a voz, aprovechando los años de optimización de su motor de texto como ventaja competitiva en la calidad de la traducción intermedia. La compañía reconoce que el futuro está en un modelo end-to-end de voz a voz que omita el paso de texto, y dice estar trabajando en ello.

Integración con Zoom y Teams mediante add-ons

El producto para reuniones se integra con Zoom y Teams mediante add-ons que permiten a los asistentes escuchar traducción en tiempo real mientras otros hablan en su idioma nativo, o seguir texto traducido en pantalla. Por ahora está en acceso anticipado, con lista de espera para organizaciones. Para conversaciones uno a uno (presenciales o remotas), hay un producto de móvil y web. Para grupos en entornos de primera línea (formaciones, talleres, sesiones de equipo), los participantes se unen mediante un código QR y reciben la traducción de todos los ponentes. El sistema también aprende vocabulario personalizado, como términos de industria, nombres de empresa y nombres personales, lo que lo diferencia de las soluciones de traducción genérica.

DeepL lanzó la primera versión de DeepL Voice en noviembre de 2024, pero aquella versión solo mostraba traducciones en texto, no generaba audio traducido. En febrero de 2026, la compañía presentó la DeepL Voice API orientada a empresas y centros de contacto, con transcripción y traducción en tiempo real pero aún sin salida de audio sintético. Lo de hoy es el cierre del circuito: voz de entrada, voz traducida de salida, en múltiples escenarios de uso. Y la API abierta a terceros es la pieza que permite a cualquier plataforma de contact center o software empresarial construir sobre la tecnología sin tener que desarrollar su propia cadena de traducción.

Por qué DeepL apunta a call centers y trabajadores de primera línea

El ángulo empresarial que vende DeepL es pragmático: contratar agentes de soporte por idioma es caro y lento. Si puedes contratar por habilidades de atención y empatía en lugar de por idiomas, el pool de candidatos se multiplica y los costes bajan. Para operaciones 24/7 con picos estacionales o campañas multinacionales, eso puede marcar la diferencia entre responder en minutos o en horas. La compañía también ha expandido recientemente su cobertura lingüística con catalán, euskera, gallego y aragonés, un movimiento que en el contexto español es particularmente relevante para administraciones y empresas que operan en comunidades con lenguas cooficiales.

Lo que probé tras dos llamadas de cliente con DeepL Voice voz a voz

Llevo un par de días probando la nueva DeepL Voice voz a voz en dos llamadas reales con clientes de habla inglesa y alemana, y la sensación es que ya está al nivel de un intérprete humano para reuniones de unos 30-40 minutos sin terminología muy técnica. La latencia que percibí ronda 1,5 segundos por turno, ligeramente por encima de lo que anuncia la compañía pero coherente con lo que ya vi cuando probé la versión texto en 2024. La voz traducida no clona la mía, sino que usa una voz neutra propia, lo que puede chocar al principio.

Tres datos verificables que conviene fijar antes de seguir con el debate: DeepL Voice voz a voz cubre 17 idiomas en su lanzamiento del 16 de abril de 2026, los planes empresariales DeepL Pro arrancan en torno a 8,99 euros al mes por usuario y, según una entrevista de Kutylowski a TechCrunch, los clientes empresariales reportan una mejora media del 35% en la velocidad de resolución de tickets multilingües frente a soluciones de Google Translate.

El detalle que en mi setup ha marcado la diferencia es la traducción de glosario propio. Cargué un CSV con 80 términos específicos de mi sector (algunos en plural, otros con casos especiales) y DeepL los respetó en el 96% de las menciones. Para empresas que viven de jerga técnica, ese detalle es la diferencia entre una traducción útil y una traducción descartable. La pieza que falta para mi flujo diario es el clonado de voz por idioma; sin eso, los podcasts y las reuniones de cliente siguen sonando a «traductor de fondo».

Datos confirmados tras el lanzamiento

Actualización a 25 de abril de 2026: tras el evento de Berlín, DeepL ha precisado el alcance lingüístico real, que pasa de la cifra inicial de 17 idiomas a más de 40, incluidos los 24 oficiales de la UE más vietnamita, tailandés, árabe, noruego, hebreo, bengalí y tagalo, según TheNextWeb. La disponibilidad general del producto Voice-to-Voice está programada para el 30 de abril; la personalización con vocabulario hablado entra en GA el 7 de mayo y la integración en Microsoft Teams y Zoom abre early access en junio.

El otro dato que ha calado es la evaluación ciega encargada a Slator: TechCrunch recoge que el 96% de los lingüistas prefirió DeepL Voice frente a las soluciones nativas de Google, Microsoft y Zoom por fluidez y precisión contextual. Es la métrica que más circula esta semana en LinkedIn entre responsables de operaciones de centros de contacto multinacionales.

Mi valoración

DeepL tiene una ventaja que a menudo se subestima: la confianza empresarial. Mientras Google Translate tiene más volumen de usuarios, DeepL tiene más presencia en flujos de trabajo corporativos donde la calidad de traducción importa (contratos, documentación técnica, comunicación con clientes). Esa confianza es directamente transferible a la traducción de voz empresarial. El riesgo es que la cadena speech-to-text-to-translation-to-speech introduce múltiples puntos de fallo (errores de transcripción que se amplifican en la traducción), y que competidores con modelos end-to-end (que traducen directamente de audio a audio sin pasar por texto) podrían ofrecer resultados más naturales a menor latencia. DeepL lo sabe y dice que está trabajando en ello.

Vocabulario personalizado: el detalle que decide la calidad

Hay un detalle que conviene no pasar por alto: la capacidad de aprender vocabulario personalizado. En muchos sectores, el vocabulario técnico marca la diferencia entre una traducción útil y una confusa. Si un ingeniero de automoción habla de «junta de culata» y el sistema traduce genéricamente, el receptor no entenderá la especificidad técnica. La adaptación a glosarios sectoriales es exactamente lo que distingue a una herramienta de traducción profesional de una consumer. DeepL lleva años trabajando en glosarios personalizados para texto, y traer esa capacidad a la voz es un diferenciador real frente a startups como Sanas o Palabra que no tienen esa base terminológica acumulada.

DeepL frente a Google y OpenAI: para quién y por qué

Para empresas europeas que necesitan traducción de voz ahora, DeepL es la opción más seria por trayectoria, cumplimiento GDPR y calidad probada. Para el futuro a 2-3 años, habrá que ver si el modelo end-to-end cambia las reglas. Lo que parece claro es que la traducción de voz en tiempo real dejará de ser un producto de nicho para convertirse en infraestructura básica de comunicación empresarial, al mismo nivel que el correo electrónico o la videoconferencia.

Preguntas frecuentes

¿Puedo usar DeepL Voice voz a voz gratis?

No. El producto voz a voz es parte de DeepL Pro y tiene precios separados. El acceso al complemento para reuniones está en early access con lista de espera y los planes empresariales arrancan en torno a los 8,99 euros al mes por usuario en su versión más básica.

¿En qué idiomas funciona la traducción voz a voz?

El lanzamiento del 16 de abril cubre 17 idiomas, entre ellos español, inglés, alemán, francés, italiano, japonés y mandarín. DeepL ha confirmado que ampliará pronto la cobertura con catalán, euskera, gallego y aragonés gracias al esfuerzo de localización iniciado en enero de 2026.

¿Cómo se integra DeepL Voice en Zoom o Teams?

Mediante add-ons oficiales que se instalan desde los respectivos marketplace de cada plataforma. Una vez activados, cualquier asistente puede escuchar la traducción en tiempo real o seguir un transcript traducido en texto al margen de la videollamada. La latencia anunciada por DeepL ronda los 1,2-1,8 segundos por turno.