Avatares expresivos para uso empresarial, así es Synthesia EXPRESS-1

Si os quedasteis impresionados con VASA-1 de Microsoft, prestad atención a lo nuevo de Synthesia.

Synthesia, un líder reconocido en el campo de la inteligencia artificial, ha lanzado recientemente su modelo EXPRESS-1, una innovación que promete revolucionar las interacciones digitales a través de avatares expresivos. Este desarrollo redefine la creación de contenido digital y establece nuevos estándares para la seguridad y ética en la utilización de medios sintéticos. Los vídeos de demostración ponen la piel de gallina.

El nuevo modelo EXPRESS-1 de Synthesia permite la generación de avatares que imitan con precisión las expresiones y comportamientos humanos. Estos avatares expresivos son capaces de interpretar el tono, el lenguaje corporal y la sincronización labial necesarios para llevar a cabo presentaciones realistas y altamente efectivas. Al integrar modelos preentrenados grandes y técnicas de difusión, Synthesia ha logrado que estos avatares no solo reproduzcan palabras, sino que también expresen emociones y gestos de manera convincente.

La implementación de estos avatares tiene un gran potencial para transformar la comunicación interna en las empresas. Synthesia propone un cambio paradigmático donde cualquier empleado, independientemente de sus habilidades técnicas, pueda crear vídeos corporativos atractivos. Esta capacidad democratiza la producción de vídeo y amplía las posibilidades de compartir conocimientos y entrenamientos internos. Empresas como Amazon Web Services ya han comenzado a experimentar con esta tecnología, aprovechando los avatares para comunicaciones multilingües en escenarios diversos.

Las pruebas que han hecho desde el MIT

En technologyreview.com cuentan cómo a partir de unas capturas se consiguió hacer un avatar realista de una periodista, y el resultado es realmente sorprendente. Es cierto que fue necesario un trabajo importante para transformar a la periodista en avatar, no fue tan sencillo como subir una foto y apretar un botón. Estos son los pasos que dio Melissa Heikkilä para probar la plataforma:

Preparación y Bienvenida: Al llegar al estudio de Synthesia en Londres, Melissa fue recibida por Tosin Oshinyemi, el líder de producción de la empresa. El equipo la asistió en preparativos de vestuario y maquillaje para asegurar que luciera consistente en cámara.
Captura de Datos Faciales y Corporales: Utilizando un escenario con pantalla verde, el proceso incluyó la captura de los movimientos faciales y expresiones de Melissa. Le pidieron realizar movimientos específicos con la cabeza y los ojos, y decir ciertas frases para captar todos los movimientos necesarios de la boca.
Interpretación de Guiones en Diferentes Tonos: Melissa leyó un guion para un ficticio programa de YouTube en varios tonos emocionales. Esto fue dirigido por Oshinyemi, quien le indicó cómo variar su tono desde informativo hasta emocionante, pasando por molesto y quejumbroso.
Calibración Inicial: Antes de comenzar la grabación formal, se realizó un proceso de calibración inicial para entender los colores naturales y características faciales de Melissa. Esto aseguró que la tecnología capturara con precisión sus rasgos únicos.
Grabación de Múltiples Tomas: Filmaron varias versiones del guion, permitiendo a Melissa mover sus manos en algunas tomas y restringiéndolas en otras para probar los límites de lo que la tecnología podía comunicar visualmente.
Captura de Voz y Consentimiento: Además de los datos visuales, también grabaron muestras de voz de Melissa. Durante este proceso, leyó un texto indicando su consentimiento explícito para que su voz fuera clonada y utilizada en la plataforma de Synthesia.
Revisión y Moderación del Contenido: Una vez que los datos fueron capturados y los avatares creados, Synthesia implementó rigurosas medidas de moderación de contenido para asegurarse de que los avatares se usaran de manera ética y segura.

Consciente de los desafíos que presenta cualquier tecnología nueva, especialmente en años cruciales para la democracia global, Synthesia ha incorporado estrictas medidas de seguridad y políticas de contenido en su plataforma. Estas incluyen la detección precoz de actores de mala fe y tecnologías de credenciales de contenido como C2PA para prevenir el uso indebido de sus avatares. Este enfoque proactivo en la seguridad busca asegurar que el uso de medios sintéticos se mantenga dentro de un marco ético y responsable.

Un futuro prometedor para los avatares AI

Mirando hacia el futuro, los avatares expresivos de Synthesia podrían redefinir completamente las experiencias de onboarding y formación dentro de las empresas. La visión de Synthesia incluye avatares que no solo se comunican en dos dimensiones, sino que interactúan en entornos tridimensionales, ofreciendo tours virtuales del lugar de trabajo y facilitando una integración mucho más interactiva y personalizada para los nuevos empleados. El vídeo que veia arriba, sin ir más lejos, es un avatar.

La implementación de avatares expresivos y realistas en el entorno empresarial ya es una realidad, por lo que seguramente en el futuro nada de lo que veamos en las pantallas tendrá un humano por detrás.