Buscando contenido dentro de un vídeo usando palabras

Imaginad que queremos encontrar una escena de alguien con gafas de sol dentro de un vídeo. Hay dos opciones: reproducimos el vídeo en busca del momento exacto o usamos un buscados semántico que utilice inteligencia artificial para analizar cada frame y devolver los resultados.

Lo segundo es lo que ofrece el experimento que os muestro hoy, creado por David Chuan-en Lin y presentado en Twitter.

En su hilo muestra algunos ejemplos de lo que se puede conseguir con whichframe.com. Solo tenemos que subir el vídeo a dicha web (o indicar uno de youtube) y especificar con palabras (en inglés) lo que estamos buscando. El sistema se encargará de realizar el análisis y devolver el resultado, aunque puede tardar un poco en hacerlo.

Search a video *semantically* with AI. 🎞️🔍https://t.co/9ASZ85Q5AA
Example: Which frame has a person with sunglasses and earphones?
Try searching with text, image, or text + image.
👇 More examples
[1/7] pic.twitter.com/y6OI5VDTxc
— David Chuan-En Lin (@chuanenlin) April 17, 2021

No solo está limitado a buscar con texto. También podemos buscar con imágenes, como si fuera una búsqueda inversa de imágenes de Google, y también una combinación de texto + imagen.

Sobre cómo lo ha creado, comenta:

La consulta está impulsada por la red neuronal CLIP de OpenAI para realizar la clasificación de imágenes «zero-shot» y la interfaz se creó con Streamlit.

La web aún no tiene ni certificado https, y seguramente no está preparada para recibir miles de peticiones por segundo, pero nos da una idea de lo que podremos tener próximamente en grandes plataformas de vídeo.