Lightricks lanza un modelo de video con IA que multiplica la velocidad sin exigir GPUs costosas

Publicado el

Una ilustración minimalista y divertida de un robot viendo un video en una laptop y tratando de imitar las acciones mostradas en la pantalla. El diseño del robot es simple y limpio, con una expresión alegre. El fondo es plano y despejado, enfatizando la interacción entre el robot y la laptop.

La creación de videos mediante inteligencia artificial suele estar reservada a quienes cuentan con recursos técnicos avanzados y tarjetas gráficas de miles de dólares. Sin embargo, Lightricks, la empresa detrás de herramientas creativas como Facetune y VideoLeap, ha presentado LTXV-13B, un modelo de IA que promete cambiar ese panorama. Con una eficiencia hasta 30 veces superior a otras soluciones actuales, este modelo permite generar video en hardware de consumo, abriendo la puerta a millones de creadores que antes estaban limitados por la tecnología.


El gran obstáculo: la memoria de las GPUs

Generar video con inteligencia artificial no es tarea sencilla. Requiere una gran capacidad de VRAM (memoria de video), lo que obliga a recurrir a GPUs de nivel empresarial que fácilmente superan los 80 GB de VRAM, como las que usan plataformas como Runway o Pika. Por el contrario, las tarjetas gráficas más populares entre usuarios comunes, como la Nvidia RTX 3090 o 4090, alcanzan un máximo de 24 a 32 GB.

Lightricks ha diseñado su modelo para que funcione sin recortes ni simplificaciones en estas GPUs de consumo, incluso en sus versiones para portátiles. Esto es un hito técnico considerable que busca democratizar el acceso a la generación de video con IA.


La clave: renderizado multiescala

La gran innovación detrás de LTXV-13B es una técnica llamada renderizado multiescala. En lugar de intentar generar todo el video con el máximo detalle desde el inicio, este método sigue una lógica similar al proceso creativo de un artista:

  1. Primero se crea un borrador general del video.
  2. Luego, el modelo divide la escena en pequeñas “baldosas” o tiles.
  3. Cada tile se va refinando con capas progresivas de detalle.

Este enfoque no solo mejora la eficiencia, sino que también reduce el pico de uso de memoria, ya que solo se necesita la cantidad suficiente para procesar una tile a la vez, y no todo el video a su resolución completa.

Además, el modelo utiliza un espacio latente más comprimido, lo que significa que puede representar la información visual con menos datos, sin comprometer la calidad del resultado final.


Rendimiento notable sin hardware extremo

Las métricas de desempeño son sorprendentes: donde otros modelos tardan más de 24 minutos en generar un video, LTXV-13B lo logra en tan solo 38 segundos, todo esto en la misma computadora.

Esta mejora del casi 40x no solo representa una victoria tecnológica, sino también una oportunidad práctica para creadores que necesitan rapidez y flexibilidad.


Código abierto para fomentar la innovación

En una industria donde muchas soluciones se guardan celosamente tras APIs privadas, Lightricks ha decidido publicar su modelo de forma completamente open source. Está disponible en Hugging Face y GitHub, lo que permitirá a desarrolladores, investigadores y startups explorar y adaptar la tecnología a sus propios proyectos.

La lógica detrás de esta decisión va más allá del altruismo. Al abrir el código, se amplía el ecosistema de colaboradores que pueden ayudar a mejorar el modelo. Esto reduce costos de I+D y permite descubrir ideas y aplicaciones que quizás no habrían surgido internamente.


Licencias flexibles para startups y universidades

Lightricks también ha decidido ofrecer licencias gratuitas para empresas con menos de 10 millones de dólares en ingresos anuales, así como para instituciones académicas. La estrategia busca construir una comunidad activa que valide y expanda las capacidades del modelo antes de establecer acuerdos comerciales con empresas más grandes.

Para estas últimas, se planean licencias similares a las que utilizan los motores gráficos de videojuegos, que solo cobran una vez que los ingresos superan ciertos umbrales.


Legalidad y derechos de autor: alianzas con Getty y Shutterstock

El uso de datos para entrenar modelos de IA ha estado en el centro de controversias legales. Para evitar conflictos, Lightricks ha cerrado acuerdos de contenido licenciado con Getty Images y Shutterstock. Esto garantiza que su modelo pueda ser utilizado en contextos comerciales sin riesgo de infringir derechos de autor, una ventaja frente a competidores que utilizan contenido recopilado sin licencia clara.


Casos de uso más allá del cine

Aunque el modelo todavía no reemplaza a una producción cinematográfica de Hollywood, sus aplicaciones actuales ya están impactando áreas como la animación. Allí, puede encargarse de tareas repetitivas como la creación de intercuadros (frames intermedios), reduciendo drásticamente los tiempos de producción y permitiendo a los creativos centrarse en la narrativa y el diseño de personajes.

En el horizonte cercano, se espera que los modelos de IA de video sean multimodales, capaces de integrar audio, texto y video en un solo flujo de trabajo. Esto permitirá sincronización labial perfecta, efectos sonoros contextuales automáticos y otras mejoras significativas.

Con LTXV-13B, Lightricks ha logrado algo que muchos creían lejano: hacer accesible la generación de video con IA sin depender de infraestructuras costosas. La clave ha estado en combinar innovación técnica, estrategias de código abierto y acuerdos inteligentes con proveedores de contenido.

Para artistas, educadores, emprendedores y pequeños estudios, esta herramienta representa una oportunidad para explorar nuevas formas de narrar visualmente sin las barreras tecnológicas que antes lo impedían.