Anthropic apuesta por la seguridad en IA con su nueva Política de Escalado Responsable

Juan Diego Polo

hace 8 meses

La seguridad en inteligencia artificial (IA) es un tema que ha cobrado relevancia en los últimos años. Anthropic, una empresa líder en este ámbito, ha dado un paso significativo al presentar su Política de Escalado Responsable. Veamos algunos detalles de esta iniciativa y su relevancia en el mundo tecnológico.

La inteligencia artificial ha avanzado a pasos agigantados, pero con este progreso vienen riesgos potenciales que pueden tener consecuencias devastadoras. Desde cuestiones éticas hasta riesgos de seguridad, la necesidad de un marco regulador es cada vez más apremiante.

Anthropic es una empresa especializada en la seguridad y la investigación en IA, responsable por Claude. Con un enfoque en la transparencia y la rendición de cuentas, la compañía busca mitigar los riesgos asociados con el desarrollo y la implementación de sistemas de IA.

La Política de Escalado Responsable (RSP, por sus siglas en inglés) es una iniciativa diseñada para abordar los «riesgos catastróficos» que podrían surgir debido al mal uso de la IA. La política establece un marco para evaluar, desplegar y supervisar sistemas de IA de manera segura.

La RSP introduce los Niveles de Seguridad en IA (ASLs), un sistema de clasificación de riesgos inspirado en los niveles de bioseguridad del gobierno de EE.UU. Estos niveles van desde ASL-0, que indica un riesgo bajo, hasta ASL-3, que señala un riesgo alto.

Ejemplos de riesgos

Para entenderlo mejor os dejo una lista de posibles riesgos (me los invento, no son notas reales):

ASL-0: Riesgo Bajo

Recomendaciones de Contenido Inadecuadas: Un algoritmo de recomendación que sugiere contenido ligeramente inapropiado pero no peligroso.
Errores de Traducción: Un modelo de lenguaje que produce traducciones incorrectas pero no dañinas.
Desinformación Leve: Un chatbot que proporciona información incorrecta sobre un tema no crítico, como una receta de cocina.

ASL-1: Riesgo Moderado

Filtrado Ineficaz de Contenido Ofensivo: Un sistema de moderación que permite el paso de comentarios ofensivos o discriminatorios.
Predicciones Médicas Erróneas: Un modelo de IA que ofrece diagnósticos médicos incorrectos pero no críticos.
Violación de Privacidad Menor: Un asistente virtual que guarda y comparte datos personales sin el consentimiento explícito del usuario.

ASL-2: Riesgo Significativo

Decisiones Financieras Erróneas: Un algoritmo que realiza inversiones riesgosas, poniendo en peligro grandes sumas de dinero.
Sistemas de Navegación Deficientes: Un sistema de IA en vehículos autónomos que toma decisiones de navegación peligrosas pero no fatales.
Desinformación Crítica: Un modelo de lenguaje que difunde información falsa sobre temas sensibles como elecciones o salud pública.

ASL-3: Riesgo Alto

Ataques Cibernéticos: Un sistema de IA que se utiliza para llevar a cabo ataques cibernéticos a gran escala.
Decisiones Médicas Críticas Erróneas: Un algoritmo que administra tratamientos médicos incorrectos, poniendo vidas en riesgo.
Manipulación de Infraestructuras Críticas: Un modelo de IA que toma el control de sistemas críticos, como plantas nucleares o redes eléctricas, y los opera de manera peligrosa.

Sobre la política propuesta

La política no es estática; se actualizará y adaptará con el tiempo para reflejar las lecciones aprendidas y los comentarios recibidos. Este enfoque dinámico permite una adaptación más rápida a los desafíos emergentes.

La implementación de la RSP no está exenta de desafíos. Uno de los más notables es la dificultad para evaluar de manera exhaustiva los riesgos, especialmente cuando los modelos de IA tienen la capacidad de ocultar sus habilidades.

Para garantizar una supervisión efectiva, todos los cambios en la política requieren la aprobación del consejo de administración de Anthropic. Este nivel de escrutinio busca evitar sesgos y garantizar una evaluación objetiva.

La RSP de Anthropic podría servir como un modelo para otras empresas en la industria de la IA, estableciendo un estándar para la seguridad y la ética en el desarrollo de sistemas de IA.

Más información en www-files.anthropic.com