Nueva tecnología de Google es capaz de mostrar en texto lo que hay dentro de fotos

Cuando buscamos en google image podemos hacerlo por palabras que, en muchas ocasiones, no tienen mucho que ver con el contenido de las fotografías mostradas. Depender de lo que el autor de la foto puso en el texto de presentación es un punto débil en los buscadores de imágenes, y Google ha mostrado hoy un avance importante en este sector.

Se trata de una tecnología que permite identificar lo que hay dentro de la foto y mostrar en texto la descripción de la escena, siendo algo fundamental para aumentar el poder de su buscador de imágenes (entre otras muchas utilidades). En la captura podéis ver algunos ejemplos:

En su blog explican algunos detalles de este proyecto que aún está en fase inicial, donde destacan que uno de los retos es dar la descripción del contenido de la foto en lenguaje natural («un perro saltando para coger un disco», por ejemplo, nada de «perro, salto, disco»). Al depender del idioma, tardaremos bastante en ver algo así en español, pero es importnte saber que se está avanzando en el tema.

Para conocer los detalles técnicos del framework utilizado, así como de los modelos del proyecto, nos dirigen a arxiv.org/abs/1411.4555, donde podemos consultar el estudio en PDF.