Ordenadores que aprenden a hablar solos, sin ayuda del ser humano

computadoras

Una cosa es transformar un texto en voz usando un sistema artificial, otra muy diferente es poder decir que un ordenador ha aprendido a hablar, y hay varias empresas que están trabajando a diario para reducir la diferencia entre ambas situaciones.

Baidu es una de ellas, el gigante chino, el “Google asiático” que inauguró un laboratorio de investigaciones de inteligencia artificial en Silicon Valley en 2013 y que ha mostrado ahora el resultado de su trabajo: un sistema de inteligencia artificial que enseña a hablar a los ordenadores sin necesidad de que los seres humanos tengan que participar constantemente del proceso.

Cuando enviamos un texto a un ordenador, o le pedimos que lea algo, las máquinas suelen acceder a bases de datos de palabras pronunciadas por personas previamente, de forma que el tono de lo leído no suele variar mucho. Si queremos otro locutor, tendremos que contratar a otra persona para que grabe una infinidad de palabras y sonidos para que el ordenador pueda usarlos cuando sea necesario. Baidu ha avanzado en este punto: no es necesario tener varios locutores, el ordenador es capaz de generarlos sin ayuda.

Así lo explican en este artículo del MIT, donde indican que están usando técnicas de aprendizaje profundo para convertir el texto en una secuencia de fonemas, no de palabras, de forma que el ordenador junta los sonidos y crea las palabras desde cero. El énfasis de dichos fonemas, su duración y la frecuencia natural del sonido no se controlan inicialmente, por lo que las variables pueden ser ajustadas para que se cambie la voz del locutor o la emoción de lo que se está hablando.

Google también presentó un sistema semejante, WaveNet, pero no funciona con fonemas, por lo que es menos flexible. El sistema de Google captura las ondas de sonido de un locutor y las utiliza para generar palabras nuevas que nunca había escuchado antes, pero aún así necesita del un humano locutor inicial.

El problema de ambos sistemas, tanto del de Google como del de Baidu, es que es necesaria mucha potencia computacional, lo que impide que, de momento, pueda usarse en los ordenadores y móviles de nuestro día a día, aunque ya sabemos que ese problema se soluciona con el tiempo.

Juan Diego Polo

Estudió Ingeniería de Telecomunicaciones en la UPC (Barcelona), trabajando como ingeniero, profesor y analista desde 1998 hasta 2005, cuando decidió emprender creando wwwhatsnew.com.