Hace diez años, los sistemas de texto a voz (TTS) sonaban como una aspiradora leyendo un manual de instrucciones. Hoy, ElevenLabs genera audio con entonación, pausas y emoción que el 58% de los oyentes no distingue de una voz humana real, según su propio benchmark de 2025. Y en la dirección contraria, la transcripción de voz a texto (STT) ha pasado de ser una fuente inagotable de errores cómicos a una herramienta fiable: Whisper de OpenAI, lanzado como modelo de código abierto en septiembre de 2022, alcanza una tasa de error de solo el 4,2% en inglés y el 5,8% en español, superando a muchos transcriptores humanos no profesionales. Continúa leyendo «Texto a voz y voz a texto en 2026: herramientas que ya no suenan a robot»