Pasando de texto a voz con la API de Google

voz

Pasar de texto a voz de forma natural es algo cada vez más importante en varios sectores, desde el de los coches autónomos hasta el de los asistentes inteligentes caseros, y Google se ha puesto las pilas para ofrecer una de las APIs más avanzadas en ese sentido, disponible en cloud.google.com/text-to-speech/.

Dan Aharon presentó el producto indicando que los desarrolladores han estado pidiendo funciones que permitan agregar transformadores de texto a voz a sus propias aplicaciones, y para ello han usado sus motores de aprendizaje automático para ofrecer una solución con buena relación entre coste y beneficio.

Con su nueva herramienta es posible crear interacciones con los usuarios, entre aplicaciones y dispositivos. Cloud Text-to-Speech admite aplicaciones o dispositivos que pueden enviar una solicitud REST o gRPC, y eso incluye teléfonos, PC, tabletas y dispositivos de IoT (por ejemplo, automóviles, televisores y altavoces).

Desde sistemas de automatización del centro de llamadas a respuestas interactivas de los dispositivos IoT, la solución ya está siendo usada por clientes como Cisco y Dolphin ONE.

Se trata de un conjunto de servicios de computación en la nube que se ejecuta en la misma infraestructura que Google usa internamente para productos como la Búsqueda de Google y YouTube, con un motor de texto a voz desarrollado por DeepMind.

Cloud Text-to-Speech también incluye una selección de voces de alta fidelidad creadas con WaveNet, un modelo generativo para audio en bruto creado por DeepMind. WaveNet sintetiza un sonido más natural y, en promedio, produce audio de voz que las personas prefieren sobre otras tecnologías de texto a voz. WaveNet no hace síntesis de voz basada en una colección de fragmentos de voces cortos, lo que tiende a crear voces robóticas, lo que hace es modelar audio sin procesar usando un modelo de aprendizaje automático para crear un discurso mucho más natural.

Su precio es de 16 dólares por cada millón de caracteres en caso de usar Wavenet, 4 dólares si se usan voces tradicionales.

Juan Diego Polo

Estudió Ingeniería de Telecomunicaciones en la UPC (Barcelona), trabajando como ingeniero, profesor y analista desde 1998 hasta 2005, cuando decidió emprender creando wwwhatsnew.com.