Crea personajes interactivos con profundidad gracias a Google

Publicado el

personajes que hablan

¡La inteligencia artificial (IA) sigue avanzando y sorprendiéndonos con nuevas aplicaciones! Google, a través de su equipo de Innovación de Socios, ha desarrollado un fascinante proyecto que combina modelos de lenguaje avanzados con tecnologías existentes de Google. Se trata de un conjunto de plantillas de IA generativa que demuestran cómo es posible crear experiencias interactivas con personajes virtuales llenos de profundidad.

Bajo el nombre de «Talking Character» (Personaje Hablante), esta plantilla permite a los desarrolladores y usuarios configurar avatares 3D personalizados que cobran vida gracias a la IA generativa. Tanto los desarrolladores como los usuarios pueden ajustar la personalidad, la historia y la base de conocimientos del avatar, lo que permite crear un experto especializado con una perspectiva única sobre cualquier tema. Luego, los usuarios pueden interactuar con el personaje tanto a través de texto como de conversaciones verbales.

Interacciones naturales con la ayuda de la IA

La clave de este proyecto reside en el uso de distintos componentes tecnológicos que permiten que un avatar 3D pueda mantener una conversación natural con los usuarios. En primer lugar, se utiliza el servicio de reconocimiento de voz de Google para convertir las entradas de voz en texto, que luego se envía a la API de PaLM (Preserve and Learn More) para generar respuestas.

También se emplea la tecnología de síntesis de voz para crear una voz que suene como la de un ser humano, dando vida a las respuestas del modelo de lenguaje.

Animación para una experiencia visual interactiva

Para lograr una experiencia visual interactiva, se ha desarrollado un avatar 3D «hablante» que se anima en función del patrón y la entonación de la voz generada. Utilizando el framework MediaPipe, se ha utilizado un modelo de aprendizaje automático para generar expresiones faciales y movimientos de los labios que se sincronizan con el patrón de voz.

Las expresiones faciales y los movimientos de los labios del avatar se logran mediante el uso de parámetros de control llamados «blendshapes», que se utilizan para animar los avatares 3D mediante un conjunto reducido de pesos. El modelo de aprendizaje automático «audio-to-blendshapes» predice estos pesos en tiempo real a partir de la entrada de voz, lo que permite animar las expresiones faciales y los movimientos de los labios del avatar. Esto se logra gracias a la técnica de seguimiento facial 3D y el uso de la biblioteca de JavaScript de código abierto three.js.

Diseño de personajes y estructura de la plantilla

El diseño de los personajes es fundamental para crear un vínculo emocional con los usuarios. En el caso de la plantilla Talking Character, se ha creado un personaje base llamado «Buddy», un perro amigable al que se le ha proporcionado una historia, una personalidad y una base de conocimientos para que los usuarios puedan mantener conversaciones sobre la vida de los perros. Sin embargo, la personalidad y la historia se pueden modificar para asumir el rol de un agente de seguros confiable, o cualquier otro personaje imaginativo.

La estructura de la plantilla permite la personalización del personaje a través de tres elementos clave: la personalidad, la historia y la base de conocimientos. Estos tres componentes se combinan en un único contexto, que se envía a la API de PaLM para generar las respuestas del personaje.

Aplicaciones potenciales y desarrollo abierto

Las posibles aplicaciones de esta tecnología son diversas y abarcan múltiples sectores. En el ámbito de los videojuegos, los personajes generados por IA podrían enriquecer los universos de los juegos y ofrecer experiencias más inmersivas a través de conversaciones en lenguaje natural sobre el mundo del juego, su historia y sus personajes.

En el ámbito educativo, los personajes virtuales podrían representar diferentes materias que los estudiantes deben estudiar, o ser personajes con diferentes niveles de dificultad en un escenario interactivo de preguntas y respuestas. También podrían representar personajes y eventos históricos para ayudar a las personas a aprender sobre diferentes culturas, lugares, personas y épocas.

En el comercio, la plantilla Talking Character podría utilizarse para dar vida a marcas y tiendas, o para brindar apoyo a los comerciantes en un mercado de comercio electrónico, mejorando así la experiencia de usuario. Además, podría utilizarse para crear avatares que acompañen a los clientes mientras exploran una tienda física, ofreciendo una experiencia de compra más interactiva y lúdica.

Impresionante, desde luego. Tenéis más informaicón en developers.googleblog.com