Anthropic refuerza la seguridad de la IA con su política de escalamiento responsable

Publicado el

Ilustración de la transparencia en la IA de Anthropic

La inteligencia artificial ha avanzado rápidamente en los últimos años, y con ello han crecido los riesgos asociados a su uso inadecuado o malintencionado. Anthropic, la compañía detrás de Claude, un chatbot cada vez más popular, ha decidido no quedarse de brazos cruzados frente a estos desafíos. Recientemente, han actualizado su política de escalamiento responsable (RSP), introducida por primera vez en 2023, con nuevas medidas diseñadas para garantizar que sus modelos de IA se desarrollen y utilicen de manera segura.

Pero, ¿qué significa realmente este cambio para el futuro de la IA y cómo puede afectar la forma en que interactuamos con la tecnología? Aquí te lo cuento en detalle, destacando las novedades y lo que podría suponer para los desarrolladores, los usuarios y la industria en general.

Nuevas medidas de seguridad: umbrales de capacidad

Uno de los aspectos más interesantes de esta política es la introducción de umbrales de capacidad. Estos umbrales actúan como puntos de control que indican cuándo las capacidades de un modelo de IA han alcanzado un nivel en el que se requiere la implementación de salvaguardas adicionales. En términos sencillos, si un modelo muestra signos de poder realizar tareas potencialmente peligrosas (como investigar la creación de bioweapons o desarrollar investigación autónoma), se disparan estas alarmas y se activan medidas de seguridad más estrictas antes de permitir que el modelo continúe su despliegue.

Imagina que estás utilizando un modelo de IA para un proyecto en tu empresa, y de repente este modelo es capaz de crear productos o realizar investigaciones sin supervisión humana. En este punto, según la nueva política de Anthropic, el modelo debería ser evaluado bajo estos umbrales de capacidad antes de permitir que siga funcionando.

Niveles de seguridad de IA (ASL)

Otro pilar fundamental de la política de escalamiento responsable es el sistema de niveles de seguridad de IA (ASL). Estos niveles están inspirados en los estándares de bioseguridad utilizados por el gobierno de Estados Unidos para manejar materiales biológicos peligrosos. La idea es adaptar un enfoque similar para la IA, de forma que a medida que los modelos se vuelvan más potentes y, por ende, más riesgosos, también se implementen mayores controles de seguridad.

Existen varios niveles de seguridad en este sistema:

  • ASL-1: Modelos sin riesgo significativo, como los de 2018 que jugaban al ajedrez.
  • ASL-2: Modelos que comienzan a mostrar capacidades peligrosas, pero cuyos riesgos aún son limitados. Por ejemplo, modelos que podrían dar instrucciones erróneas o incompletas sobre cómo construir un arma química.
  • ASL-3: Aquí ya hablamos de riesgos más serios, como capacidades autónomas de bajo nivel. Estos modelos requieren pruebas intensivas por equipos de expertos para asegurarse de que no representan un peligro antes de ser desplegados.
  • ASL-4 y superior: Aún no se ha definido completamente, pero estos niveles estarán reservados para los modelos más avanzados y peligrosos que podrían tener un potencial de riesgo catastrófico.

Lo que Anthropic está intentando con este sistema es algo que, en mi opinión, no solo es innovador, sino necesario. Este tipo de enfoque estructurado podría ser una referencia para otros desarrolladores en la industria de la IA, incentivando una competencia no solo por mejorar los modelos, sino también por hacerlo de forma más segura.

El papel del «oficial de escalamiento responsable»

Uno de los puntos más interesantes de esta actualización es la creación de la figura del responsable de escalamiento (RSO). Esta persona será la encargada de supervisar que todos los protocolos de seguridad se sigan al pie de la letra. Además, tendrá la autoridad para detener el desarrollo o el despliegue de un modelo si se considera que los riesgos son demasiado altos.

Esto podría sonar un poco extremo, pero si lo piensas, es similar a los controles de seguridad que existen en otras industrias. Por ejemplo, en la aviación, si un avión no pasa ciertas pruebas de seguridad, no se le permite volar. Lo mismo aplica aquí, solo que en lugar de un avión, estamos hablando de modelos de inteligencia artificial que podrían tener un impacto masivo en la sociedad.

Yo creo que la introducción de esta figura es un paso en la dirección correcta. No solo añade una capa extra de control, sino que también asegura que alguien esté siempre vigilando que las decisiones se tomen en función de la seguridad y no solo del progreso tecnológico.

¿Cómo impacta esto a la industria de la IA?

La política actualizada de Anthropic no solo está diseñada para aplicarse internamente. De hecho, uno de sus objetivos es convertirse en un estándar exportable para la industria de la IA. Es decir, Anthropic quiere que otros desarrolladores adopten marcos de seguridad similares, lo que crearía una especie de «carrera hacia la cima» en cuanto a la seguridad de la IA.

Imagina un mundo en el que los desarrolladores compitan no solo por tener el modelo más potente, sino también por tener el modelo más seguro. Esto podría transformar completamente la forma en que la industria se aproxima al desarrollo de IA, obligando a las empresas a priorizar la seguridad en cada paso del proceso.

En WWWhatsnew.com hemos hablado mucho sobre la necesidad de regulaciones más estrictas en el campo de la IA. Este enfoque de Anthropic podría ser un primer paso hacia una industria más autorregulada, donde las empresas no esperen a que los gobiernos impongan restricciones, sino que tomen la iniciativa de establecer estándares por sí mismas.

Pruebas externas y transparencia

Una de las novedades más interesantes de la política de Anthropic es la idea de realizar pruebas externas independientes para verificar que los modelos cumplen con las normas de seguridad. Esto no solo involucra a empresas privadas, sino también a universidades y gobiernos, que podrían realizar sus propias pruebas para asegurarse de que los modelos de IA no representen un riesgo para la seguridad nacional.

Estas pruebas externas ayudarían a garantizar que los desarrolladores no solo se evalúen a sí mismos, sino que también permitan que terceros revisen sus modelos. Esto agrega una capa extra de transparencia y puede generar confianza en los usuarios finales de estas tecnologías.

Un paso hacia el futuro

En mi opinión, esta actualización de la política de Anthropic es un reflejo claro de la dirección que debería seguir la industria de la IA. Los riesgos son reales y, a medida que los modelos de IA se vuelvan más poderosos, es imprescindible tener sistemas de seguridad que evolucionen con ellos.

Es probable que veamos más empresas adoptando enfoques similares en los próximos años, y eso no es solo una buena noticia para los desarrolladores, sino también para los usuarios que dependen de estas tecnologías. Si bien el futuro de la IA es emocionante, no podemos ignorar los desafíos que presenta, y Anthropic parece estar decidido a enfrentarlos de manera proactiva.