Ordenadores que aprenden a hablar solos, sin ayuda del ser humano

Publicado el

computadoras

Una cosa es transformar un texto en voz usando un sistema artificial, otra muy diferente es poder decir que un ordenador ha aprendido a hablar, y hay varias empresas que están trabajando a diario para reducir la diferencia entre ambas situaciones.

Baidu es una de ellas, el gigante chino, el «Google asiático» que inauguró un laboratorio de investigaciones de inteligencia artificial en Silicon Valley en 2013 y que ha mostrado ahora el resultado de su trabajo: un sistema de inteligencia artificial que enseña a hablar a los ordenadores sin necesidad de que los seres humanos tengan que participar constantemente del proceso.

Cuando enviamos un texto a un ordenador, o le pedimos que lea algo, las máquinas suelen acceder a bases de datos de palabras pronunciadas por personas previamente, de forma que el tono de lo leí­do no suele variar mucho. Si queremos otro locutor, tendremos que contratar a otra persona para que grabe una infinidad de palabras y sonidos para que el ordenador pueda usarlos cuando sea necesario. Baidu ha avanzado en este punto: no es necesario tener varios locutores, el ordenador es capaz de generarlos sin ayuda.

Así­ lo explican en este artí­culo del MIT, donde indican que están usando técnicas de aprendizaje profundo para convertir el texto en una secuencia de fonemas, no de palabras, de forma que el ordenador junta los sonidos y crea las palabras desde cero. El énfasis de dichos fonemas, su duración y la frecuencia natural del sonido no se controlan inicialmente, por lo que las variables pueden ser ajustadas para que se cambie la voz del locutor o la emoción de lo que se está hablando.

Google también presentó un sistema semejante, WaveNet, pero no funciona con fonemas, por lo que es menos flexible. El sistema de Google captura las ondas de sonido de un locutor y las utiliza para generar palabras nuevas que nunca habí­a escuchado antes, pero aún así­ necesita del un humano locutor inicial.

El problema de ambos sistemas, tanto del de Google como del de Baidu, es que es necesaria mucha potencia computacional, lo que impide que, de momento, pueda usarse en los ordenadores y móviles de nuestro dí­a a dí­a, aunque ya sabemos que ese problema se soluciona con el tiempo.

Publicado en
Etiquetado
voz

Comparte en: