El equipo de Facebook hoy compartió una extensa nota comentando el funcionamiento de algunas de sus herramientas de visión por computador y anunciando que las deja a disposición de la comunidad, ya que pasan a ser de código abierto.
Estas herramientas forman parte del trabajo de Facebook AI Research y permiten avanzar hacia la meta de ayudar a los ordenadores a identificar objetos en las imágenes tal como lo hace el ojo humano. Ya que como ilustran en la imagen, los ordenadores solo pueden ver una serie de valores a codificar a diferencia de todos los detalles que nosotros podemos apreciar:
Trabajando tras esa dinámica han creado una serie de técnicas y algoritmos que permiten la segmentación de objetos en imágenes. Los algoritmos que han mencionado y que están disponibles en GitHub son DeepMask, SharpMask, y MultiPathNet. Además de una serie de documentos y demostraciones que forman parte de la investigación.
En el post que comparten, detallan el papel que desempeña cada una de estas herramientas en el proceso de segmentación, ya que la idea no es solo reconocer objetos o personas en una fotografía, sino que busca interpretar la imagen pixel por pixel.
Las aplicaciones que se podrían lograr con el tiempo mejorando esta tecnología son muchas, tal como han mencionado, desde potenciar la búsqueda de imágenes, mejorar la experiencia en usuarios con problemas de visión hasta implementarla en videos.