Tecnologí­a de Microsoft reconoce los objetos en una fotografí­a para subtitularla

Publicado el

Imagina una tecnologí­a de reconocimiento de imágenes que pueda capturar una fotografí­a, identificar todos los objetos en ella así­ como todas las personas presentes y las acciones que cada una realiza, y luego, tras una optimización, todos los resultados de su escaneo se logran acomodar en una frase o breve descripción lógica que pareciera la interpretación dada por un humano.

reconocimiento imagen Microsoft

Pues bien, un grupo de investigadores de Microsoft anda puliendo tal tecnologí­a puesto que ya es una realidad, de hecho, hasta hay una competición por estos dí­as, Microsoft COCO, en la que se anima a otros grupos de investigadores a trabajar en aumentar la eficiencia del reconocimiento y subtitulado de imágenes con sus propios algoritmos. Bajo el método estándar BLEU que mide la calidad de las traducciones automáticas, la tecnologí­a de Microsoft por ahora consigue una calificación del 29.1%, lo que equivale a que 3 de cada 10 veces sus respuestas son al menos tan buenas como las que podrí­a brindar un humano.

La magia de todo el asunto se centra en las redes neuronales enfocadas a tratar de entender la forma en cómo una persona interpreta una fotografí­a, cómo conectar la visión con el lenguaje para aplicar lo resultante a Inteligencias Artificiales que puedan ser útiles hasta en el diario vivir, por ejemplo, una máquina que le aprovechara para entender acciones humanas y dar respuestas especí­ficas.

En fin, el trabajo sigue en curso aunque hay grandes obstáculos como el enriquecer la forma en como la tecnologí­a considera el contexto de las fotografí­as; Por ahora se muestra limitada a tratar únicamente la información disponible en la imagen ya que, a pesar de que usa grandes bases de datos de imágenes para aprender por su cuenta, aún no se acerca tanto al entendimiento humano quien realiza tareas de contextualización más eficientes.

Más información: Blog oficial de Windows