Imagina una tecnología de reconocimiento de imágenes que pueda capturar una fotografía, identificar todos los objetos en ella así como todas las personas presentes y las acciones que cada una realiza, y luego, tras una optimización, todos los resultados de su escaneo se logran acomodar en una frase o breve descripción lógica que pareciera la interpretación dada por un humano.
Pues bien, un grupo de investigadores de Microsoft anda puliendo tal tecnología puesto que ya es una realidad, de hecho, hasta hay una competición por estos días, Microsoft COCO, en la que se anima a otros grupos de investigadores a trabajar en aumentar la eficiencia del reconocimiento y subtitulado de imágenes con sus propios algoritmos. Bajo el método estándar BLEU que mide la calidad de las traducciones automáticas, la tecnología de Microsoft por ahora consigue una calificación del 29.1%, lo que equivale a que 3 de cada 10 veces sus respuestas son al menos tan buenas como las que podría brindar un humano.
La magia de todo el asunto se centra en las redes neuronales enfocadas a tratar de entender la forma en cómo una persona interpreta una fotografía, cómo conectar la visión con el lenguaje para aplicar lo resultante a Inteligencias Artificiales que puedan ser útiles hasta en el diario vivir, por ejemplo, una máquina que le aprovechara para entender acciones humanas y dar respuestas específicas.
En fin, el trabajo sigue en curso aunque hay grandes obstáculos como el enriquecer la forma en como la tecnología considera el contexto de las fotografías; Por ahora se muestra limitada a tratar únicamente la información disponible en la imagen ya que, a pesar de que usa grandes bases de datos de imágenes para aprender por su cuenta, aún no se acerca tanto al entendimiento humano quien realiza tareas de contextualización más eficientes.
Más información: Blog oficial de Windows