Una inteligencia artificial pone sonido en las escenas de Google Street View

Seguramente muchos de vosotros habéis pasado horas y horas recorriendo el mundo con Google Street View. Los coches, las mochilas y el resto de dispositivos que usa Google para registrar lo que hay por caminos y calles de todo el planeta han ayudado a reducir distancias, transformando el «turismo digital» en toda una tendencia durante los últimos años.

Pero de la misma manera que no es lo mismo visitar Londres calle por calle usando Google Street View que ir personalmente, tampoco es lo mismo ver una foto que disfrutar de un vídeo, y el sonido es uno de los grandes responsables de esta diferencia.

Ahí es cuando entra imaginarysoundscape.net, un proyecto nacido en Japón que pone sonido a las imágenes usando Inteligencia Artificial. Si el sistema detecta que hay personas, pone sonido de conversaciones, si detecta una iglesia, pone una misa, si hay un río, pone agua… de la misma manera que los seres humanos podemos imaginar el sonido de un ambiente con solo verlo, la IA puede imaginarlo después de haberse entrenado de forma adeciada.

El sistema presentado se centra en este comportamiento inconsciente, donde los espectadores pueden caminar libremente por Google Street View y sumergirse en paisajes sonoros imaginarios generados con modelos de aprendizaje profundo. Podemos también subir una imagen y ver el resultado, sin necesidad de navegar por Street view.

Comentan en su web:

Este trabajo se basa en el reciente desarrollo de la técnica de recuperación de información intermodal, como imagen a audio, texto a imagen, utilizando el aprendizaje profundo. Dadas las entradas de video, el sistema se entrenó con dos modelos: un modelo de reconocimiento de imagen bien entrenado y pre-entrenado, procesa los cuadros, mientras que otra red neuronal convolucional lee el audio como imágenes de espectrograma, evolucionando para que la distribución de su salida sea igual a la primera.

Las dos redes permiten recuperar el archivo de sonido más adecuado para una escena, de su enorme conjunto de sonido ambiental que tienen en su base de datos.

En muchas ocasiones el resultado ignora el contexto cultural y geográfico, lo que deja claro que aún hay mucho trabajo por hacer.

El proyecto fue presentado en octubre de 2018, y su código está disponible en github.