¿Quién canta mejor, Alexa o Google?

El asistente de Google y el de Amazon han conquistado millones de hogares en poco tiempo, aunque la fiebre de «ver lo que son capaces de hacer» suelen durar pocas semanas. La mayoría de la gente acaba usándolo como altavoz para poner Spotify, previsión del tiempo, reloj alarma y poco más, pero cada semana siempre tienen novedades, y vale la pena estar al día para aprovechar al máximo la compra realizada.

Una de las funciones que ambos asistentes ofrecen está relacionada con el canto. Los dos saben cantar, y no lo hacen mal del todo. Seguramente ya habéis pedido que canten villancicos, que canten una canción, o que interpreten un RAP.

En general las opiniones son las mismas: Alexa tiene una voz más dulce, pero el asistente de Google consigue dar más sorpresas a la hora de hacer algo más sofisticado. Con Alexa, por ejemplo, cuando decimos «Alexa, cántame una canción», podrá cantar una trágica canción de amor sobre la pérdida de Wi-Fi, mientras que Google lanzará su «como asistente, todo lo hago».

Sea como sea, hay varios vídeos en youtube que muestran el poder de la canción de los asistentes, y aquí os mostramos algunos ejemplos comenzando con un breve experimento que hemos realizado en nuestro canal:

En este primer vídeo hemos pedido a Google (con su «repite lo que digo») y a Alexa (con su «Simón dice»), que repita la letra de una conocida canción, y después de un poco de edición, este ha sido el resultado. Si os gusta, haremos la canción completa y la pondremos en nuestro canal.

https://www.youtube.com/watch?v=Y5n7bK6SFFU

Aquí tenéis a Alexa cantando un dueto.

Y aquí cantando una canción ella solita.

Google Home cantando cumpleaños feliz.

Alexa y Google compitiendo para ver quién canta mejor el cumpleaños feliz.

El talento está demostrado pero…

¿Cómo convierten las palabras escritas en fonemas?

Básicamente, hay tres etapas involucradas: texto a palabras, palabras a fonemas y fonemas a sonidos.

1. Texto a palabras: Los sistemas que transforman texto en palabras han evolucionado mucho en los últimos años. En la fase de preprocesamiento o normalización se reduce la ambigüedad, se revisa el texto y se limpia para que el asistente cometa menos errores cuando lee las palabras en voz alta. Cosas como números, fechas, horas, abreviaturas, acrónimos y caracteres especiales deben convertirse en palabras, y hay un cerebro inteligente por detrás capaz de hacer eso a gran velocidad.

El preprocesamiento también tiene que abordar homógrafos y palabras pronunciadas de diferentes maneras según su significado, no es tarea fácil.

2. Palabras a fonemas: Habiendo descubierto las palabras que deben decirse, el sintetizador de voz ahora tiene que generar los sonidos de voz que componen esas palabras. Para ello usa una enorme lista alfabética de palabras y detalles de cómo pronunciar cada una, por lo que tiene que tener una enorme cantidad de datos almacenados con los diferentes acentos de cada idioma.

3. Fonemas a sonido: Ahora que el texto ya es un conjunto de fonemas, se usarán grabaciones de humanos que dicen esos fonemas, aunque también es posible que la computadora genere los fonemas de forma automática, obteniendo un resultado bastante más artificial, eso sí.

Como veis, son tres pasos complejos que se realizan cada vez que pedimos canciones, aunque en la mayoría de los casos ya están guardadas y preprocesadas para que no haya problemas a la hora de emitirlas.