Ya hemos hablado en bastantes ocasiones de las deepfakes, en el que gracias a los algoritmos de aprendizaje automático, conseguimos obtener montajes de medios bastante realistas, donde de hecho ya podremos haber utilizado apps de deepfakes en nuestros móviles, como FaceApp para ofrecer representaciones de nuestros rostros a diferentes edades, o Reface, que nos permite ser protagonistas de segmentos de películas y vídeos musicales, sin olvidar obviamente de las lentes existentes en redes sociales como Snapchat o TikTok, entre otras tantas posibilidades.
Pues bien, ahora Nvidia trata de llevar el concepto de las deepfakes a los servicios de vídeo como las videollamadas, con el objetivo de conseguir mejores resultados en múltiples aspectos mediante la recreación en tiempo real.
En este sentido, en su keynote GTC 2020, la compañía acaba de presentar a Maxine, su nueva plataforma de Inteligencia Artificial de transmisión de vídeo basada en la nube, que ofrece una serie de capacidades de mejora aplicables a servicios como las videollamadas, y que actualmente se encuentra en su fase de acceso temprano para desarrolladores.
Consiguiendo resultados en las videollamadas únicamente mediante algoritmos
Maxine hace uso de las Redes Generativas Antagónicas (GANs, por sus siglas en inglés), y según explica la compañía, en el caso de las videollamadas es capaz de conseguir que las personas se encuentren frente a la cámara, aunque estén mirando hacia otro punto, mediante lo que vienen a llamar Alineación de rostros, en el que básicamente consiste en recrear y modificar la información de la imagen para hacer que parezca estar mirando a la cámara web.
También contempla efectos como el aumento de la resolución para las videollamadas de baja resolución, la eliminación del posible ruido de fondo, el aumento de la iluminación para aquellos espacios con poca luz, o incluso la reducción del ancho de banda.
Este último punto es bastante interesante ya que, gracias a la tecnología de compresión de vídeo de la compañía, se posibilita una reducción del 90% del ancho de banda utilizado en aquellas videollamadas o videoconferencias que hagan uso del estándar H.264.
En este sentido, los algoritmos fijarán los puntos claves de los rostros de las personas para transmitir únicamente los píxeles a los que corresponde, en lugar de transmitir todos los píxeles del rostro.
También llegan nuevas posibilidades productivas
Y con NVIDIA Jarvis, los desarrolladores pueden integrar asistentes virtuales para que se pueda llevar a cabo una serie de acciones relacionadas con las conversaciones, pudiendo desde tomar nota hasta realizar transcripciones conversacionales.
Sin duda, Nvidia acaba de abrir un mundo de posibilidades que, tarde o temprano, veamos en distintas aplicaciones y servicios, especialmente en los de videollamadas.