Este año, un empleado de una corporación multinacional transfirió 25 millones de dólares a estafadores siguiendo instrucciones que, según él, provenían directamente del CFO de la empresa. Los criminales utilizaron un programa de inteligencia artificial para generar videos realistas del CFO y otros colegas, engañando al empleado. Este incidente puso en evidencia el desafío de distinguir entre videos reales y falsos generados por IA, tanto para los humanos como para los sistemas de detección actuales.
La Solución de Columbia Engineering: DIVID
Para abordar este problema, investigadores de Columbia Engineering, liderados por el profesor de Ciencias de la Computación Junfeng Yang, han desarrollado DIVID (DIffusion-generated VIdeo Detector). Esta herramienta detecta videos generados por IA con una precisión del 93.7%.
¿Qué es DIVID?
DIVID es un detector de videos generados por IA que mejora los métodos existentes. Utiliza una técnica llamada DIRE (DIffusion Reconstruction Error), que mide la diferencia entre un video de entrada y el video reconstruido por un modelo de difusión preentrenado. Esta diferencia ayuda a identificar videos generados por IA. El estudio está en arxiv.org
Cómo Funciona la Tecnología de Detección
Modelos de Difusión vs. Redes Generativas Adversarias
Las redes generativas adversarias (GAN) han sido la base de las tecnologías de detección anteriores. Una GAN tiene dos redes neuronales: una que crea datos falsos y otra que evalúa estos datos. Sin embargo, los nuevos modelos de difusión crean videos refinando gradualmente el ruido aleatorio hasta obtener una imagen clara y realista. DIVID se enfoca en estos nuevos modelos de difusión, que son más sofisticados y difíciles de detectar.
La Técnica DIRE
La técnica DIRE funciona reconstruyendo un video y analizando la diferencia entre el video original y el reconstruido. Las imágenes generadas por modelos de difusión tienden a parecerse más entre sí, mientras que los videos humanos muestran más individualidad y desviaciones. Esta técnica permite a DIVID detectar con precisión los videos generados por IA.
Expansión de la Detección de Textos a Videos
El profesor Yang y su equipo ya habían desarrollado Raidar, una herramienta que detecta textos generados por IA analizando el texto en sí, sin necesidad de acceder a los modelos internos. Raidar mide la cantidad de ediciones realizadas a un texto dado; menos ediciones indican que el texto fue generado por IA. Esta misma idea se aplicó a DIVID para la detección de videos.
Implementación y Futuro de DIVID
Aplicaciones Actuales
Actualmente, DIVID es una herramienta de línea de comandos disponible solo para desarrolladores. Sin embargo, los investigadores están trabajando para integrarla como un complemento para plataformas como Zoom, con el objetivo de detectar llamadas deepfake en tiempo real. También están considerando el desarrollo de un sitio web o un complemento de navegador para hacer DIVID accesible al público en general.
Mejoras Futuras
El equipo de investigación está mejorando el marco de DIVID para manejar diferentes tipos de videos sintéticos y está recopilando más videos para ampliar su conjunto de datos. La tecnología promete ser una herramienta crucial en la lucha contra el fraude y la desinformación generada por IA.