Microsoft presenta herramienta de creación de «deepfakes»

El evento Ignite 2023 estuvo lleno de sorpresas, y una de ellas llegó cuando Microsoft presentó una herramienta capaz de crear avatares fotorrealistas y animarlos para que digan cosas que la persona real no dijo. Este desarrollo, conocido como Azure AI Speech text-to-speech avatar, está disponible en vista pública y plantea preguntas éticas fundamentales.

Con esta nueva herramienta, los usuarios pueden generar videos de un avatar hablando subiendo imágenes de una persona y escribiendo un guion. Un modelo entrenado por Microsoft anima el avatar, mientras que otro modelo de texto a voz —preconstruido o entrenado con la voz de la persona— «lee» el guion en voz alta. Este avatar puede ser utilizado para crear videos de entrenamiento, introducciones de productos, testimonios de clientes y más, simplemente con un texto. Los avatares pueden hablar en múltiples idiomas y, para escenarios de chatbot, pueden usar modelos de IA como GPT-3.5 de OpenAI para responder preguntas fuera de guion.

Microsoft reconoce que esta herramienta podría ser mal utilizada, de hecho tecnologías similares han sido empleadas para producir propaganda y noticias falsas, por eso, inicialmente, la mayoría de los suscriptores de Azure solo tendrán acceso a avatares preconstruidos. Los avatares personalizados están disponibles solo bajo registro y para ciertos casos de uso.

Microsoft exige a los clientes de avatares personalizados obtener un «permiso explícito por escrito» y declaraciones de consentimiento del talento de avatar.

Por otro lado, una nueva capacidad dentro del servicio de voz neural personalizado de Microsoft, puede replicar la voz de un usuario en pocos segundos con una muestra de discurso de un minuto. Microsoft prohíbe el uso de discursos pregrabados y requiere el «consentimiento explícito» del usuario, siendo el acceso a esta característica restringido a través de un formulario de registro. En este caso, los clientes deben acordar usar la voz personal solo en aplicaciones donde la voz no lea contenido generado por usuarios o de manera abierta.

Sobre las voces, Microsoft añadió que se añadirán automáticamente marcas de agua a las voces personales, aunque la detección de estas marcas en una aplicación o plataforma requiere la aprobación de Microsoft.

La iniciativa de Microsoft, aunque prometedora en términos tecnológicos, abre un debate crítico sobre la ética y la seguridad en la era de la inteligencia artificial. Mientras exploramos estas nuevas fronteras, es esencial abordar las implicaciones morales y legales que acompañan a tales innovaciones.