Más vídeo generado por Inteligencia Artificial, ahora desde Stability AI, que presenta Stable Video Diffusion

Publicado el

IA creando vídeo

Stability AI, famosa por su generador de imágenes con IA, ha presentado ahora a Stable Video Diffusion, un modelo de AI que promete transformar la manera en que generamos vídeos.

Stable Video Diffusion no es simplemente otra adición al ya saturado mercado de herramientas de AI; representa un salto cualitativo en la capacidad de animar imágenes estáticas para producir secuencias de vídeo realistas y convincentes. Lo que lo hace aún más notable es su disponibilidad tanto en el ámbito de código abierto como en el comercial, un hecho que subraya el compromiso de Stability AI con la accesibilidad y la innovación en el campo de la inteligencia artificial.

Su modelo se basa en la estructura preexistente de Stable Diffusion, conocida por su eficacia en la generación de imágenes a partir de texto. La singularidad de Stable Video Diffusion reside en su capacidad de crear vídeos de alta calidad a partir de imágenes, y para ello opera en dos variantes: SVD (Stable Video Diffusion) y SVD-XT. Más abajo os comento las diferencias entre ambas variantes.

Un aspecto crucial del desarrollo de estos modelos es su proceso de entrenamiento. Stable Video Diffusion fue entrenado inicialmente con un vasto conjunto de datos de millones de vídeos, seguido de un afinamiento con un conjunto menor pero significativo de cientos de miles a un millón de clips. Esta metodología de entrenamiento asegura no solo la precisión en la generación de vídeos sino también la diversidad en los resultados.

Aquí tenéis algunos ejemplos de lo que se puede hacer:

Problemillas en la empresa

Stability AI no lo va a tener fácil para competir con Runaway, entre otros. Enfrenta una serie de desafíos únicos, especialmente en el contexto financiero y operativo. A pesar de ser una de las empresas emergentes más prometedoras en el campo de la inteligencia artificial, Stability AI ha experimentado dificultades relacionadas con la gestión de sus recursos financieros. Informes recientes sugieren que la compañía ha estado lidiando con altas tasas de consumo de efectivo y problemas en el pago puntual de salarios y obligaciones fiscales.

Estos desafíos financieros se ven exacerbados por la presión de los inversores, quienes buscan resultados tangibles y rentables. En un esfuerzo por asegurar su viabilidad a largo plazo, Stability AI ha recaudado recientemente 25 millones de euros mediante una nota convertible, elevando su financiamiento total a más de 125 millones de euros. Sin embargo, la empresa aún no ha logrado un nuevo ciclo de financiación a una valoración más alta, un objetivo crítico dada su valoración actual de 1.000 millones de euros y su ambición de cuadruplicar esta cifra en los próximos meses.

Otro reto significativo es la retención de talento clave. La reciente salida de Ed Newton-Rex, el vicepresidente de audio, destaca las tensiones internas relacionadas con el uso de datos protegidos por derechos de autor en el entrenamiento de modelos de AI. Esta partida subraya la importancia de abordar cuestiones éticas y legales en el desarrollo de tecnologías basadas en inteligencia artificial.

Comparativa de Modelos: SVD y SVD-XT en Foco

cerebro digital

Per dejemos el politiqueo de lado y vamos a concentraros en la comparativa entre las dos versiones de Stable Video Diffusion, SVD y SVD-XT, revela diferencias clave en términos de rendimiento y aplicabilidad. Ambas versiones representan un avance significativo en la generación de vídeo mediante inteligencia artificial, pero cada una ofrece características distintas adaptadas a diferentes necesidades y usos.

SVD, la versión estándar, es capaz de convertir imágenes en vídeos de 576×1024 píxeles a 14 cuadros por segundo. Este modelo es ideal para aplicaciones que requieren una conversión básica de imágenes a vídeos, manteniendo una calidad aceptable y un rendimiento eficiente. Es adecuado para tareas como la animación de imágenes estáticas en contextos donde el detalle extremo no es crítico.

Por otro lado, SVD-XT eleva la apuesta al incrementar el número de cuadros a 24 por segundo. Este incremento en los cuadros por segundo se traduce en una reproducción de vídeo más fluida y detallada, lo que es crucial para aplicaciones que demandan una mayor fidelidad visual, como en la publicidad o el entretenimiento. La capacidad de SVD-XT para generar vídeos de mayor calidad lo hace más adecuado para escenarios donde la precisión y el detalle son primordiales.

Es importante señalar que, a pesar de sus capacidades avanzadas, ambos modelos tienen limitaciones. Por ejemplo, no pueden generar vídeos sin movimiento o con movimientos de cámara lentos, y tienen dificultades para generar textos legibles o representar rostros y personas de manera consistente.

Preocupaciones típicas del sector

Uno de los mayores desafíos que enfrenta Stability AI con su nuevo modelo es el potencial para usos indebidos, especialmente en la creación de contenidos falsificados o deepfakes. No es nuevo, es la pesadilla diaria del sector.

La preocupación radica en que, a pesar de las intenciones originales de uso para fines educativos o creativos, la falta de un filtro de contenido incorporado en Stable Video Diffusion podría permitir su uso para representar de manera falsa a personas o eventos. Este riesgo se vio anteriormente con Stable Diffusion, donde actores con malas intenciones utilizaron el modelo para crear contenido inapropiado y perjudicial.

Estas preocupaciones éticas no solo afectan la percepción pública de la tecnología sino también plantean serios interrogantes sobre la responsabilidad de los desarrolladores de AI en prevenir usos maliciosos. Es crucial que empresas como Stability AI implementen medidas robustas para garantizar que sus innovaciones no se utilicen de manera que puedan causar daño o difundir desinformación.

 

Comparte en: