Texto a voz y voz a texto en 2026: herramientas que ya no suenan a robot

Publicado el

Representación de la conversión de audio a texto con inteligencia artificial para herramientas TTS y STT

Hace diez años, los sistemas de texto a voz (TTS) sonaban como una aspiradora leyendo un manual de instrucciones. Hoy, ElevenLabs genera audio con entonación, pausas y emoción que el 58% de los oyentes no distingue de una voz humana real, según su propio benchmark de 2025. Y en la dirección contraria, la transcripción de voz a texto (STT) ha pasado de ser una fuente inagotable de errores cómicos a una herramienta fiable: Whisper de OpenAI, lanzado como modelo de código abierto en septiembre de 2022, alcanza una tasa de error de solo el 4,2% en inglés y el 5,8% en español, superando a muchos transcriptores humanos no profesionales.

Esta doble revolución —hablar y que la máquina escriba, escribir y que la máquina hable— tiene aplicaciones que van mucho más allá de los asistentes de voz. Accesibilidad para personas con discapacidad visual o motora, creación de audiolibros y podcasts sin grabar, dictado profesional para médicos y abogados, traducción en tiempo real, y generación de contenido multimedia para creadores que no tienen voz de locutor (ni presupuesto para contratar uno).

Texto a voz (TTS): las mejores herramientas

ElevenLabs. La referencia en calidad de voz en 2026. Ofrece voces sintéticas en 29 idiomas (español incluido, con acentos español, mexicano y argentino), clonación de voz con 30 segundos de muestra, control de emoción y estilo, y una API potente. Plan gratuito: 10.000 caracteres/mes. Plan Starter: 5 $/mes (30.000 caracteres). Plan Creator: 22 $/mes (100.000 caracteres). La calidad es asombrosa: las voces respiran, hacen pausas naturales y modulan el tono según el contenido.

Microsoft Azure TTS. La opción enterprise: más de 400 voces neuronales en 140 idiomas, integración nativa con Microsoft 365, personalización avanzada con SSML. Plan gratuito: 500.000 caracteres/mes (generoso). Es la mejor opción si necesitas volumen alto o integración con productos Microsoft.

Google Cloud TTS. Calidad comparable a Azure, con 220+ voces en 40+ idiomas. Las voces «Studio» y «Neural2» son excelentes para español. Plan gratuito: 1 millón de caracteres/mes para voces estándar, 100.000 para voces neuronales. Integración natural con el ecosistema Google.

Amazon Polly. Menos voces que Azure y Google (16 idiomas con voces neuronales), pero integración perfecta con AWS. Plan gratuito durante 12 meses: 5 millones de caracteres/mes.

Alternativas locales (sin nube). Piper TTS (código abierto, funciona offline, calidad aceptable) y Coqui TTS (código abierto, modelos entrenables, ideal para quien quiere ejecutar IA en su propio ordenador).

Voz a texto (STT): las mejores herramientas

Whisper de OpenAI. Modelo de código abierto disponible para ejecutar localmente (gratis) o vía API (0,006 $/minuto). Soporta 99 idiomas, incluido español con alta precisión. El modelo «large-v3» es el más preciso; el «tiny» funciona en tiempo real incluso en hardware modesto. La comunidad ha creado interfaces como Whisper.cpp (optimizado para Mac con Apple Silicon) y whisper-web (funciona en el navegador).

Google Speech-to-Text. Transcripción en tiempo real en 125+ idiomas, puntuación automática, detección de hablantes múltiples (diarización). Plan gratuito: 60 minutos/mes. Después: 0,006-0,009 $/15 segundos.

AssemblyAI. Especializado en transcripción con funciones avanzadas: resumen automático, detección de sentimiento, identificación de hablantes. Desde 0,37 $/hora de audio. API muy bien documentada.

Herramientas de dictado integradas. Windows 11: Win+H activa el dictado por voz del sistema, que usa reconocimiento neuronal y funciona offline. Mac: Fn Fn (doble pulsación) o Ajustes > Teclado > Dictado. Ambos han mejorado enormemente y son suficientes para dictado casual.

Otter.ai. Especializado en reuniones: transcribe en tiempo real, identifica hablantes, genera resúmenes y se integra con Zoom, Google Meet y Teams. Plan gratuito: 300 minutos/mes. Pro: 8,33 $/mes (1.200 minutos).

Casos de uso prácticos

Accesibilidad. Para personas con discapacidad visual, el TTS convierte cualquier texto en audio. Las funciones de accesibilidad integradas en iOS y Android usan TTS como base. Para personas con discapacidad motora, el dictado por voz permite escribir sin teclado.

Creación de contenido. Crear un audiolibro de 8 horas con un locutor profesional cuesta 2.000-5.000 €. Con ElevenLabs, el mismo audiolibro cuesta ~50 € en créditos. Podcasters generan intros/outros con TTS. Creadores de vídeo en YouTube añaden narración sin grabar su propia voz.

Productividad profesional. Médicos dictan informes clínicos (Dragon Medical reduce el tiempo de documentación un 45%). Abogados dictan contratos y escritos. Periodistas transcriben entrevistas de una hora en minutos con Whisper en lugar de las 3-4 horas de transcripción manual.

Aprendizaje de idiomas. El TTS con voces nativas te permite escuchar la pronunciación correcta de cualquier texto. Combínalo con STT para practicar tu pronunciación: dictas, el sistema transcribe, y comparas con el texto original.

Clonación de voz: poder y responsabilidad

ElevenLabs y Resemble AI permiten clonar una voz con solo 30 segundos de audio. La tecnología es impresionante y útil, pero el potencial de abuso es evidente: deepfakes de audio que suplantan la identidad de personas reales.

ElevenLabs ha implementado verificación de identidad para clonar voces, marcas de agua digitales en todo audio generado y un sistema de detección de deepfakes. Pero herramientas de clonación de código abierto no tienen estas restricciones. La recomendación de seguridad: si recibes una llamada sospechosa de un familiar pidiendo dinero urgentemente, verifica por otro canal antes de actuar.

Mi valoración

La calidad del TTS y STT en 2026 ha cruzado un umbral que lo cambia todo. Dicto la mayoría de mis borradores con Whisper y edito después; es más rápido que escribir para textos largos. Uso ElevenLabs para generar versiones de audio de mis artículos, algo impensable hace tres años por coste y calidad. Y las funciones de dictado integradas en los sistemas operativos han mejorado tanto que cualquier persona puede empezar a usarlas hoy sin instalar nada. Mi única precaución real es con la clonación de voz: es una tecnología poderosa que debe usarse con consentimiento explícito y conciencia de los riesgos.

Preguntas frecuentes

¿El dictado por voz funciona bien en español?
Sí. Whisper large-v3 tiene un 5,8% de tasa de error en español, comparable al inglés. Las herramientas de dictado de Windows 11 y macOS también funcionan bien en español. La precisión mejora significativamente en entornos silenciosos y con un micrófono dedicado.

¿Puedo usar TTS para crear un audiolibro y venderlo?
Depende de los términos del servicio. ElevenLabs permite uso comercial en sus planes de pago. Amazon ACX acepta audiolibros generados con IA desde 2024, pero exige que se etiqueten como «narración virtual». Google Play Books también los acepta con etiquetado.

¿El STT funciona offline?
Sí, con modelos locales. Whisper puede ejecutarse localmente sin enviar datos a ningún servidor. El modelo «tiny» funciona en tiempo real en un portátil moderno; el «large-v3» necesita una GPU dedicada. Las funciones de dictado de Windows y Mac también funcionan offline.