Investigadores de la Universidad de Washington y el Instituto de Allen de IA entrenaron a un sistema de inteligencia artificial para “interpretar” lo que sucede en los vídeos.
Y para lograr este objetivo, los investigadores usaron millones de vídeos de YouTube para entrenar a la IA.
Si bien no nos cuenta interpretar lo que sucede en una imagen o vídeo, ya que podemos entender todos los elementos que intervienen en su contexto, esto se convierte en una gran desafío aún para los sistemas de inteligencia artificial más avanzados.
Teniendo en cuenta que para interpretar una escena en una simple fotografía, una IA tiene que analizar cientos de datos, podemos imaginarnos que la cantidad de datos y patrones que necesita para interpretar lo que sucede en un vídeo es inimaginable.
Sin embargo, los investigadores siguen desarrollando modelos que puedan acercarse a este objetivo. Uno de los últimos estudios fue compartido por un grupo de investigadores de Universidad de Washington y el Instituto de Allen de IA:
Presentamos MERLOT, un modelo que aprende el conocimiento de guiones multimodales al ver millones de videos de YouTube con voz transcrita, de una manera totalmente supervisada y sin etiquetas. Al entrenar previamente con una combinación de objetivos a nivel de fotogramas (espaciales) y de video (temporales), nuestro modelo no solo aprende a hacer coincidir las imágenes con las palabras correspondientes temporalmente, sino también a contextualizar lo que está sucediendo globalmente a lo largo del tiempo.
Tal como mencionan los investigadores, se entreno a la IA con millones de vídeos de YouTube que abarcaban diferentes temáticas. El objetivo fue que el sistema de inteligencia artificial logrará contextualizar las representaciones de los vídeos, y entendiera los eventos y situaciones, ordenando los fotogramas con las transcripciones correspondientes.
Y según los datos que han compartido (hasta un 80,6 de precisión), Merlot ha logrado superar algunos de los desafíos de esta dinámica. Sin embargo, este sistema de aprendizaje de la IA tiene algunas limitaciones. Por ejemplo, la IA podría adquirir “patrones indeseables” teniendo en cuenta el segmento limitado de vídeos que se usaron en el entrenamiento, ya sea por el idioma o las temáticas.
Si bien aún tienen mucho camino por delante, los resultados son más que prometedores para seguir avanzando en estos modelos de inteligencia artificial.