El nuevo fenómeno de la IA: «Video Scraping» para extraer datos de grabaciones de pantalla

Publicado el

Ilustración minimalista en estilo arte pop de videoconferencia en X, con colores vibrantes y contornos audaces

La inteligencia artificial está avanzando a pasos agigantados, y cada día nos sorprende con nuevas formas de hacer tareas que antes parecían tediosas. Uno de los últimos avances más interesantes es el llamado video scraping, una técnica que, aunque suene sencilla, tiene implicaciones profundas para el futuro de la IA. Esta técnica permite que un modelo de IA, como Gemini de Google, extraiga datos precisos de una grabación de pantalla. Imagina que ya no tienes que copiar y pegar manualmente la información de diferentes fuentes; la IA lo hace por ti.

¿Qué es el video scraping y cómo funciona?

El video scraping consiste en alimentar a un modelo de IA con una grabación de lo que ocurre en tu pantalla. Ya sea que estés navegando por tus correos, moviéndote entre varias ventanas o simplemente desplazándote por un documento, la IA puede ver y entender lo que estás haciendo. A partir de esa grabación, es capaz de extraer datos y estructurarlos, sin necesidad de que introduzcas manualmente la información.

Un ejemplo interesante es el del investigador Simon Willison, quien utilizó esta técnica para resolver un problema que muchos de nosotros podríamos enfrentar: sumar cantidades dispersas en varios correos electrónicos. En lugar de abrir cada correo y copiar los valores uno a uno, Willison grabó un video de 35 segundos desplazándose por los correos y luego usó el Google AI Studio con el modelo Gemini 1.5 Pro. La IA extrajo los valores y fechas de los correos, los organizó en formato JSON (que luego Willison convirtió a CSV para usarlo en una hoja de cálculo), y lo hizo con una precisión sorprendente.

¿Qué significa esto para el futuro de la productividad?

Piensa en todas las veces que has tenido que lidiar con la tediosa tarea de recopilar información de múltiples fuentes. Con el video scraping, esa barrera desaparece. Willison mismo describe cómo el costo de procesar el video fue insignificante: menos de una décima parte de un centavo por toda la operación, lo que lo deja boquiabierto por la eficiencia y economía de este enfoque. Si consideramos que Google AI Studio es gratuito para ciertos usos, las posibilidades para mejorar nuestra productividad se multiplican.

Esta tecnología abre la puerta a un futuro donde la IA no solo escuche o lea lo que decimos o escribimos, sino que vea lo que hacemos en pantalla y nos ayude a interactuar con nuestro entorno digital de maneras mucho más inteligentes y rápidas.

Convertir lo visible en datos útiles

El verdadero poder del video scraping radica en su capacidad para convertir datos no estructurados (como lo que ves en tu pantalla) en datos útiles y estructurados. Willison ya ha mostrado otras aplicaciones de esta técnica, como cuando grabó un video de sus estanterías de libros y pidió a Gemini que extrajera los títulos de los libros en una lista organizada.

Este tipo de usos son especialmente atractivos para los periodistas de datos y cualquier profesional que necesite extraer información de fuentes que normalmente son difíciles de analizar mediante técnicas tradicionales de scraping. De hecho, Willison destaca cómo esta técnica de IA es capaz de saltarse barreras que frenan el scraping convencional, como las medidas de autenticación de sitios web.

Para aquellos que trabajan con información que no está fácilmente accesible mediante métodos tradicionales, el video scraping ofrece una nueva manera de capturar esos datos que antes eran inalcanzables.

Más allá de lo técnico: aplicaciones cotidianas

Imagina que estás tratando de hacer un pedido en un sitio web con una interfaz complicada o poco amigable. En lugar de tener que luchar contra los botones y menús, podrías grabar tu pantalla e introducir esa grabación en un modelo de IA, que podría realizar las acciones por ti de manera automática. Esto es solo un ejemplo sencillo, pero da una idea del potencial que tiene el video scraping en aplicaciones del día a día.

Es posible que pronto veamos cómo la IA no solo ayuda a navegar, sino que también realiza tareas visuales y de interacción en nuestro lugar. Empresas como Microsoft y OpenAI ya están explorando prototipos de «visiones copilotadas», donde la IA «observa» la pantalla y ayuda al usuario a completar tareas de manera más eficiente. Aunque estas funciones aún no están ampliamente disponibles, no cabe duda de que las veremos implementadas en un futuro no muy lejano.

Privacidad y riesgos: lo que debemos considerar

Por supuesto, como con cualquier tecnología, el video scraping plantea preguntas importantes sobre la privacidad. Tener un modelo de IA que pueda ver lo que hacemos en nuestra pantalla abre la puerta a posibles abusos. Willison señala que, por ahora, él tiene el control total sobre lo que decide exponer a la IA, ya que solo sube los videos que elige. Sin embargo, existe el riesgo de que en el futuro estas técnicas sean utilizadas para espiar a los usuarios sin su consentimiento.

Algunas aplicaciones ya están bajo la lupa por estas mismas razones. Herramientas como Rewind AI y Recall de Microsoft operan registrando en video todo lo que hacemos en nuestro ordenador, almacenando los datos para que luego una IA pueda analizarlos. Esto, por supuesto, plantea riesgos evidentes si esos datos caen en las manos equivocadas.

Lo que viene: IA con visión local

Es posible que en el futuro tengamos versiones de IA que puedan realizar análisis de video de manera local, sin necesidad de subir nuestros datos a la nube. Esto podría ayudar a mitigar algunos de los riesgos relacionados con la privacidad, aunque aún queda mucho por desarrollar en este campo. Por ahora, el balance entre las ventajas y los riesgos del video scraping depende de cómo decidamos utilizarlo.

El video scraping es una herramienta fascinante que está abriendo nuevas puertas en el mundo de la inteligencia artificial. Con la capacidad de ver lo que hacemos en pantalla y extraer datos de manera automática, estamos ante un avance que puede cambiar la forma en que interactuamos con la tecnología. Será interesante ver hasta dónde podemos llevar esta técnica y cómo se integrará en nuestras vidas cotidianas.

Podéis ver detalles en simonwillison.net