Netflix ha publicado VOID (Video Object and Interaction Deletion), su primer modelo de IA open source, capaz de eliminar objetos de un vídeo y regenerar lo que físicamente ocurriría en la escena sin ellos. Si eliminas a una persona sujetando una guitarra, VOID no deja la guitarra flotando: la deja caer, porque entiende que la persona la sostenía. El modelo está disponible en Hugging Face bajo licencia Apache 2.0 para uso comercial.
VOID no es un simple inpainting (rellenar píxeles). Usa un «quadmask» de cuatro valores que codifica el objeto a eliminar, las zonas de superposición, las regiones afectadas por la interacción (objetos que se moverán tras la eliminación) y el fondo a mantener. Está construido sobre CogVideoX (modelo de difusión de vídeo de Alibaba), afinado con datos sintéticos de Kubric (Google) y HUMOTO (Adobe), y usa Gemini 3 Pro para análisis de escena y SAM2 de Meta para segmentación.
En pruebas con 25 evaluadores humanos, VOID fue preferido el 64,8% de las veces, frente al 18,4% de Runway (el competidor más cercano). El paper (preprint en arXiv) fue desarrollado por investigadores de Netflix e INSAIT Sofia University.
Mi valoración: VOID ataca un problema real que cuesta millones a los estudios de producción: eliminar objetos de escenas grabadas sin refilmar. Un coche moderno que aparece en un drama de época, un logo de marca visible en una escena, un extra que no firmó consentimiento. Hoy eso requiere semanas de VFX. Con VOID, son minutos. Que Netflix lo libere como open source sugiere que no lo ven como ventaja competitiva exclusiva, sino como una herramienta para elevar el estándar de toda la industria (y atraer talento de IA al ecosistema Netflix).
Preguntas frecuentes
¿Qué hace VOID? Elimina objetos de vídeos y reconstruye la física de la escena (sombras, reflejos, objetos que caen, etc.). ¿Es gratis? Sí. Open source, Apache 2.0, disponible en Hugging Face. ¿Supera a Runway? En pruebas humanas, preferido 64,8% vs 18,4% de Runway.
