La inteligencia artificial sigue avanzando en el campo del reconocimiento de voz, y ElevenLabs ha dado un gran paso con el lanzamiento de Scribe, su nuevo modelo de transcripción de voz a texto. La empresa asegura que esta tecnología supera a competidores consolidados como Otter, TurboScribe, Google, Fireflies y Deepgram, gracias a su precisión sin precedentes en 99 idiomas.
Un giro innovador en la tecnología de ElevenLabs
Hasta ahora, ElevenLabs era reconocida por su tecnología de texto a voz y la generación de voces sintéticas. Sin embargo, con Scribe han decidido dar un giro y ofrecer una solución que hace lo contrario: convertir el habla en texto con una exactitud impresionante.
Principales características de Scribe
Scribe no solo convierte audio en texto, sino que lo hace con funcionalidades avanzadas que lo posicionan como una de las mejores opciones del mercado:
- Compatibilidad con 99 idiomas, incluyendo lenguas menos comunes como serbio, cantonés y malayalam.
- Timestamps a nivel de palabra, lo que permite sincronización precisa con el audio.
- Diarización de hablantes, identificando quién dijo qué en una conversación.
- Etiquetado de eventos de audio, que marca pausas, ruidos de fondo y otros elementos relevantes en una grabación.
Estas funciones hacen que Scribe sea ideal para una variedad de usos, desde la generación de subtítulos para películas hasta la transcripción de reuniones empresariales y entrevistas.
Precisión comprobada: supera a Whisper y Gemini 2.0 Flash
Uno de los aspectos que más destaca ElevenLabs es la precisión de su modelo, la cual fue evaluada utilizando pruebas de referencia como FLEURS y Common Voice. Según estos estudios, Scribe superó a modelos como Whisper Large V3, Gemini 2.0 Flash y Deepgram Nova-3, logrando los índices de error más bajos en transcripción de varios idiomas:
- Italiano: 98.7% de exactitud
- Inglés: 96.7% de exactitud
- Otros 97 idiomas con resultados igualmente sobresalientes
Esto significa que, independientemente del idioma, Scribe ofrece una transcripción más precisa que muchas de las soluciones actuales en el mercado.
Facilidad de integración y costos competitivos
Para los desarrolladores y empresas, ElevenLabs ofrece Scribe a través de una API de reconocimiento de voz, que permite recibir transcripciones estructuradas en formato JSON con eventos de no habla, información de hablantes y marcas de tiempo.
El modelo tiene un precio de 0.40 dólares por hora de audio, con un descuento especial de lanzamiento disponible por seis semanas.
Para quienes no necesiten una API, Scribe también está disponible a través del dashboard de ElevenLabs, donde los usuarios pueden subir archivos de audio o video y obtener transcripciones automáticas en minutos.
Planes futuros: transcripción en tiempo real
Actualmente, Scribe se centra en la precisión, pero ElevenLabs ya ha anunciado que pronto lanzará una versión de baja latencia para aplicaciones en tiempo real. Esto podría ser revolucionario para industrias como el soporte al cliente, la traducción simultánea y los asistentes de voz, donde la velocidad de respuesta es clave.
Nuestra opinión en WWWhatsnew
En WWWhatsnew creemos que Scribe marca un antes y un después en el mundo de la transcripción automática. Si bien existen muchas herramientas de este tipo, la combinación de precisión, compatibilidad con 99 idiomas y facilidad de integración hace que esta tecnología sea una opción muy atractiva tanto para usuarios individuales como para empresas.
El hecho de que ElevenLabs haya demostrado su superioridad frente a grandes nombres del sector como Google y OpenAI refuerza la idea de que el campo del reconocimiento de voz y la transcripción sigue evolucionando rápidamente. Ahora, la gran pregunta es cómo responderán sus competidores a este avance.