Azure AI Content Safety: El nuevo guardián de la seguridad en línea gracias a la Inteligencia Artificial

Juan Diego Polo

hace 3 años

Microsoft ha presentado Azure AI Content Safety, un nuevo servicio de moderación basado en IA que tiene como objetivo crear entornos en línea más seguros y comunidades libres de contenido inapropiado.

Esta nueva oferta, disponible a través de la plataforma de productos Azure AI, proporciona una serie de modelos de IA entrenados para detectar contenido «inapropiado» en imágenes y texto. Estos modelos, que pueden entender texto en varios idiomas, asignan una puntuación de gravedad al contenido identificado, lo que indica a los moderadores qué acciones se deben tomar.

Según un portavoz de Microsoft, la empresa ha estado trabajando en soluciones para abordar el desafío del contenido dañino en las comunidades en línea durante más de dos años. Reconocieron que los sistemas existentes no tenían en cuenta el contexto ni podían funcionar en varios idiomas. Los nuevos modelos de IA son capaces de comprender el contenido y el contexto cultural de manera mucho más efectiva, son multilingües desde el principio y proporcionan explicaciones claras y comprensibles, lo que permite a los usuarios entender por qué se marcó o eliminó un contenido.

Un enfoque más efectivo en la moderación de contenido

Azure AI Content Safety se presenta como una versión comercializada del sistema de seguridad que impulsa el chatbot de Microsoft en Bing y Copilot, el servicio de generación de código basado en IA de GitHub. Según Sarah Bird, responsable de IA responsable de Microsoft, Azure AI Content Safety se lanza como un producto que los clientes externos también pueden utilizar.

Durante una demostración en la conferencia anual de Microsoft Build, Bird explicó que Azure AI Content Safety puede integrarse en sistemas de inteligencia artificial no relacionados, como comunidades en línea y plataformas de juegos.

El servicio también está disponible como parte de Azure OpenAI Service, un producto corporativo totalmente gestionado de Microsoft que proporciona acceso a las tecnologías de OpenAI con características adicionales de gobierno y cumplimiento. Esto permite a las empresas utilizar Azure AI Content Safety para protegerse contra contenido sesgado, sexista, racista, odioso, violento o que incite al daño propio.

Retos en la detección de toxicidad mediante IA

Azure AI Content Safety es similar a otros servicios de detección de toxicidad basados en IA, como Perspective de Google y Jigsaw. Estos servicios ofrecen una puntuación del 0 al 100 para determinar la similitud de nuevos comentarios e imágenes con otros previamente identificados como tóxicos.

Sin embargo, existen motivos para ser escéptico sobre la efectividad de estos servicios. Además de los problemas iniciales de Bing Chat y los despidos recientes en el equipo de ética y sociedad de Microsoft, diversos estudios han demostrado que la tecnología de detección de toxicidad basada en IA aún tiene dificultades para superar desafíos, como los sesgos contra grupos específicos de usuarios.

Investigadores de la Universidad Estatal de Pensilvania descubrieron que las publicaciones en redes sociales sobre personas con discapacidades podrían ser marcadas como más negativas o tóxicas por modelos de detección de sentimientos y toxicidad comúnmente utilizados. Otro estudio mostró que versiones anteriores de Perspective a menudo no reconocían discursos de odio que utilizaban palabras insultantes «reivindicadas» o variaciones de ortografía.

Abordando los desafíos con IA y la moderación de contenido

Uno de los principales desafíos en la moderación de contenido mediante IA es la presencia de sesgos en los conjuntos de datos de entrenamiento que utilizan los modelos. Los anotadores encargados de etiquetar los datos de entrenamiento a menudo introducen sus propios sesgos. Por ejemplo, hay diferencias en las anotaciones entre los anotadores que se identifican como afroamericanos y miembros de la comunidad LGBTQ+ en comparación con aquellos que no se identifican con ninguno de esos dos grupos.

Para abordar estos problemas, Microsoft permite que los filtros en Azure AI Content Safety se ajusten según el contexto. Por ejemplo, una frase como «correr por la colina y atacar» podría considerarse un nivel medio de violencia en un juego y bloquearse si el sistema de juego está configurado para bloquear contenido de gravedad media. Sin embargo, si se ajusta para aceptar niveles medios de violencia, el modelo podría tolerar esa frase.

Microsoft cuenta con un equipo de expertos lingüísticos y en equidad que trabajaron en la definición de las pautas, teniendo en cuenta los aspectos culturales, lingüísticos y de contexto. Aunque se espera que la IA cometa algunos errores, para aplicaciones que requieran una precisión casi perfecta, se recomienda utilizar una validación humana.

Uno de los primeros adoptantes de Azure AI Content Safety es Koo, una plataforma de blogs con sede en Bangalore, India, cuya base de usuarios habla más de 20 idiomas. Microsoft se ha asociado con Koo para abordar desafíos de moderación como el análisis de memes y el entendimiento de los matices coloquiales en diferentes idiomas.