Anthropic y su filtro nuclear: la IA se enfrenta a sus propios límites de seguridad

Natalia Polo

hace 2 meses

la IA se enfrenta a sus propios límites de seguridad

Anthropic, empresa creadora del chatbot Claude, ha unido esfuerzos con el Departamento de Energía de Estados Unidos (DOE) y la Administración Nacional de Seguridad Nuclear (NNSA) para desarrollar un sistema que impida que su modelo de lenguaje sea utilizado con fines relacionados con la construcción de armas nucleares. La intención de este acuerdo es clara: evitar que la inteligencia artificial contribuya, de forma directa o indirecta, a la proliferación de tecnología nuclear con fines militares.

El trabajo conjunto entre Anthropic y la NNSA ha dado como resultado un clasificador nuclear, un filtro avanzado capaz de detectar conversaciones que se acercan peligrosamente a temas sensibles vinculados con armamento nuclear. Este clasificador fue desarrollado sobre una lista de indicadores de riesgo proporcionada por la NNSA, que incluye palabras clave, términos técnicos y contextos que podrían implicar un intento de obtener información peligrosa.

Claude puesto a prueba en entornos clasificados

Para comprobar la eficacia de esta herramienta, se desplegó una versión temprana de Claude en un entorno informático con nivel de seguridad Top Secret, alojado en los servidores de Amazon Web Services (AWS), que ya colabora con varias agencias gubernamentales. Desde allí, el modelo fue sometido a sesiones intensivas de «red-teaming», es decir, pruebas deliberadas diseñadas para identificar vulnerabilidades en su comportamiento.

Estos tests se enfocaron en evaluar hasta qué punto Claude podía generar, combinar o inferir conocimiento úctil para desarrollar armamento nuclear. Según Marina Favaro, de Anthropic, el clasificador fue afinado con detalle para diferenciar entre usos legítimos de términos nucleares (como los relacionados con energía o medicina) y los que podrían estar orientados a fines militares.

Un modelo entrenado sin acceso a secretos nucleares

Sin embargo, críticos del proyecto señalan que esta iniciativa podría estar construyéndose sobre una preocupación infundada. Heidy Khlaaf, científica del AI Now Institute con experiencia en seguridad nuclear, sugiere que si Claude nunca fue entrenado con material sensible, entonces su incapacidad para generar contenido relacionado con armas nucleares es esperable y no requiere de un filtro adicional para evitarlo. Desde su perspectiva, el clasificador desarrollado por Anthropic podría no tener un sustento sólido si se basa solamente en conocimientos públicos o fragmentarios.

Khlaaf advierte sobre el riesgo de que este tipo de anuncios alimente el temor o la especulación sobre capacidades que los modelos actuales realmente no tienen. En sus palabras, se estaría construyendo un sistema de seguridad en torno a una amenaza que todavía no existe en la forma que se teme, lo que podría desviar la atención de problemas más tangibles.

Preocupaciones sobre los datos y el acceso corporativo

Una de las críticas más destacadas gira en torno a la colaboración entre agencias gubernamentales y empresas privadas. Para muchos expertos, hay una delgada línea entre cooperar por seguridad nacional y entregar acceso a datos extremadamente sensibles a corporaciones tecnológicas. En este caso, algunos se preguntan si el afán de mejorar los modelos de lenguaje podría derivar en la apropiación de información crítica bajo el pretexto de seguridad.

Esta preocupación cobra peso si se considera el valor que representa para una empresa como Anthropic acceder, aunque sea indirectamente, a esquemas, términos o patrones de lenguaje relacionados con secretos nucleares. Aunque el contenido del clasificador no es clasificado, sí está cuidadosamente controlado, lo que refleja la sensibilidad del tema.

Riesgos reales y futuros inciertos

Oliver Stephenson, experto en IA de la Federation of American Scientists, plantea una mirada intermedia: hoy por hoy, los modelos de lenguaje como Claude no parecen representar un riesgo real en cuanto a proliferación nuclear, pero nadie puede garantizar cuáles serán sus capacidades dentro de cinco años. Es precisamente esa incertidumbre la que justifica, según algunos, el desarrollo preventivo de clasificadores como el de Anthropic.

El caso de la fabricación de lentes de implosión, elementos clave en ciertos tipos de bombas nucleares, sirve como ejemplo. Estos dispositivos requieren una ingeniería de alta precisión. Si un modelo de IA tuviera acceso a suficientes estudios, artículos y documentos técnicos disponibles públicamente, podría ser capaz de sintetizar información de manera que facilite ese tipo de diseños. Esa posibilidad, aunque remota, no es imposible.

Un filtro compartido con la industria

Como gesto hacia la transparencia, Anthropic ha ofrecido su clasificador a otras empresas del sector, con la esperanza de que se convierta en un estándar voluntario dentro de la industria de la inteligencia artificial. La idea es que, con una inversión técnica relativamente baja, otros modelos puedan integrar esta herramienta para reducir los riesgos de mal uso en un ámbito tan delicado como la seguridad nuclear.

Sin embargo, a pesar de esta apertura, las dudas persisten. El hecho de que el propio Claude pueda fallar al resolver matemáticas básicas o que tenga comportamientos erráticos bajo ciertas condiciones refuerza la idea de que los modelos actuales están lejos de sustituir el conocimiento experto necesario para desarrollar armamento nuclear. La historia recuerda cómo un simple error matemático en 1954 triplicó la potencia de una bomba probada en el Pacífico. Imaginemos las consecuencias de un error similar cometido por una IA sin supervisión humana.