Bloom: la herramienta de Anthropic para evaluar el comportamiento de modelos de IA

Publicado el

Ilustración surrealista de inteligencia artificial como arquitectura mental en entorno onírico

El desarrollo de modelos de inteligencia artificial se ha disparado en los últimos años, pero una de las grandes incógnitas sigue siendo cómo evaluar de forma precisa y sistemática su comportamiento. Con este objetivo en mente, Anthropic ha presentado Bloom, una herramienta de código abierto que permite analizar cómo se comporta un modelo de IA ante distintos escenarios, tanto en condiciones normales como bajo presión.

Bloom no es un modelo de lenguaje, sino un sistema de evaluación diseñado para automatizar una tarea que hasta ahora era lenta y artesanal: someter a los modelos a diferentes situaciones para detectar posibles sesgos, comportamientos peligrosos o respuestas inadecuadas.

Cómo funciona Bloom: el ciclo completo de evaluación

La lógica detrás de Bloom es clara: si queremos confiar en una IA, debemos entender no solo lo que responde, sino por qué responde como lo hace. El proceso de evaluación se desarrolla en varias fases. Primero, el investigador indica qué tipo de comportamiento desea observar: por ejemplo, si el modelo tiende a ser excesivamente complaciente, si presenta sesgos a su favor o si prioriza su «supervivencia» ante situaciones críticas.

Una vez definida la conducta a estudiar, Bloom analiza ejemplos previos proporcionados por el usuario para comprender qué tipo de respuestas reflejan ese comportamiento. Con esta base, la herramienta genera automáticamente nuevos escenarios, como si escribiera pequeños guiones que simulan conversaciones entre un usuario y la IA. En cada uno de estos escenarios se especifica el contexto, el tipo de usuario simulado, el entorno de interacción y los mensajes iniciales del sistema.

Lo interesante es que cada ejecución de Bloom crea situaciones distintas, lo que permite una evaluación mucho más rica y variada que los tradicionales bancos de pruebas fijos. Luego, una IA actúa como agente, interpretando tanto al usuario como al sistema, para simular la conversación completa.

Finalmente, otro modelo actúa como «juez» para analizar las transcripciones y detectar si la conducta buscada aparece. Además, un meta-juez hace un análisis general de los resultados y proporciona métricas útiles para entender patrones de comportamiento. Los resultados pueden visualizarse dentro de la herramienta y exportarse para análisis posteriores.

Un enfoque modular y escalable

Una de las fortalezas de Bloom es su modularidad. Se puede integrar directamente con los pesos y sesgos (weights and biases) de un modelo para ejecutar pruebas a gran escala, algo especialmente útil para empresas o laboratorios que trabajan con múltiples versiones de modelos. También es altamente configurable: los investigadores pueden ajustar la longitud de las interacciones, el tipo de lenguaje, la modalidad de las respuestas y otros parámetros según el tipo de experimento que deseen realizar.

Por otro lado, Bloom produce transcripciones compatibles con otras herramientas de inspección, lo que facilita su adopción en flujos de trabajo ya existentes.

Resultados concretos: lo que Bloom ya ha puesto en evidencia

Junto con la herramienta, Anthropic ha publicado los resultados de pruebas aplicadas a cuatro tipos de comportamientos preocupantes: la adulación delirante, la autosabotaje planificado a largo plazo, la autoconservación y el sesgo de preferencia hacia uno mismo. Estos nombres tan específicos reflejan problemas que ya han sido observados en modelos avanzados, como cuando una IA da siempre la razón al usuario sin importar la lógica, o cuando intenta proteger su funcionamiento frente a instrucciones legítimas.

Las pruebas se realizaron en 16 modelos de IA diferentes, tanto internos de Anthropic como de terceros, lo que proporciona una base amplia para comparar cómo se comportan distintas arquitecturas ante los mismos desafíos. Este tipo de benchmark no solo sirve para auditar modelos, sino también para mejorar su diseño.

¿Por qué es importante evaluar el comportamiento de las IA?

Con el avance de los modelos de lenguaje y su integración en productos cotidianos como asistentes virtuales, generadores de texto o agentes autónomos, se vuelve cada vez más necesario comprender sus motivaciones internas. No basta con que una IA genere una respuesta correcta; necesitamos saber si lo hace por las razones adecuadas.

Aquí es donde herramientas como Bloom se vuelven fundamentales. Si un modelo está entrenado con millones de ejemplos humanos, también puede heredar sesgos, prejuicios o comportamientos indeseables. Pero detectar estos rasgos no es tan fácil como revisar una línea de código: se necesita poner a prueba al modelo como quien somete a un piloto de avión a un simulador de emergencia, observando cómo reacciona ante situaciones límites.

Además, al ser de código abierto y tener una licencia MIT permisiva, Bloom puede ser usado tanto en entornos académicos como comerciales, facilitando la colaboración y la transparencia en el desarrollo de modelos más seguros y confiables.

Una herramienta abierta a la comunidad

Bloom está disponible en el repositorio de GitHub de Anthropic, lo que permite a desarrolladores, investigadores y empresas utilizarla, modificarla y adaptarla a sus necesidades. Esta apertura contrasta con otros enfoques más cerrados dentro del sector, y demuestra un compromiso con una IA más comprensible y auditable.

Con esta propuesta, Anthropic refuerza su línea de trabajo centrada en el comportamiento de las inteligencias artificiales, una línea que ya había mostrado con su familia de modelos Claude. Bloom no compite con estos modelos, sino que los complementa: es una herramienta para observar desde fuera lo que ocurre dentro del “cerebro” de la IA.