Anthropic: Nuevos benchmarks para la evaluación de modelos de IA

Juan Diego Polo

hace 8 meses

Una representación futurista y abstracta de la evaluación de la inteligencia artificial. La imagen presenta redes neuronales vibrantes, nodos interconectados y flujos digitales en una armoniosa mezcla de tonos azules y púrpuras. Simboliza las capacidades avanzadas y las interacciones complejas de los modelos de IA, destacando la importancia de la evaluación de seguridad y rendimiento en la era digital.

Anthropic ha lanzado un ambicioso programa para financiar el desarrollo de nuevos benchmarks capaces de evaluar el rendimiento y el impacto de los modelos de inteligencia artificial, incluidos los modelos generativos como Claude. Esta iniciativa busca revolucionar la forma en que se mide la seguridad y las capacidades de los sistemas de IA en la industria.

Una Necesidad Urgente de Evaluaciones Avanzadas

La creciente complejidad y aplicación de los modelos de IA ha dejado en evidencia la necesidad de benchmarks más sofisticados. Los criterios actuales a menudo no reflejan cómo los usuarios realmente interactúan con estos sistemas. Además, muchos benchmarks existentes, especialmente aquellos creados antes del auge de la IA generativa, han quedado obsoletos y no logran capturar las capacidades reales de los modelos modernos.

El Programa de Anthropic

Anthropic ha anunciado que ofrecerá pagos a organizaciones externas capaces de desarrollar métodos eficaces para medir las capacidades avanzadas de los modelos de IA. La empresa destaca que su inversión está orientada a elevar el campo de la seguridad en IA, proporcionando herramientas valiosas que beneficien a todo el ecosistema.

Los interesados pueden presentar sus solicitudes en cualquier momento, y Anthropic ha contratado un coordinador a tiempo completo para gestionar el programa.

Objetivos del Programa

El enfoque de Anthropic se centra en crear benchmarks que no solo evalúen la eficiencia de los modelos, sino también su impacto potencial en la sociedad. Entre los objetivos específicos se incluyen:

Evaluar la capacidad de los modelos para realizar ataques cibernéticos.
Examinar la posibilidad de «mejorar» armas de destrucción masiva.
Medir la capacidad de manipulación y engaño a través de deepfakes y desinformación.

Además, Anthropic se ha comprometido a desarrollar un sistema de alerta temprana para identificar y evaluar riesgos asociados a la seguridad nacional y la defensa.

Un Enfoque Integral

El programa no solo busca identificar riesgos, sino también explorar el potencial positivo de la IA. Esto incluye:

Apoyo a la investigación en tareas de punta a punta que investiguen cómo la IA puede ayudar en el estudio científico.
Evaluación de la capacidad de los modelos para conversar en múltiples idiomas.
Mitigación de sesgos incrustados y autocensura de contenido tóxico.

Para alcanzar estos objetivos, Anthropic propone la creación de nuevas plataformas que permitan a expertos en la materia desarrollar sus propias evaluaciones y realizar pruebas a gran escala con miles de usuarios.

Financiación y Colaboraciones

Anthropic ofrece diversas opciones de financiamiento adaptadas a las necesidades y etapa de cada proyecto. Aunque los detalles específicos no se han divulgado, se menciona la posibilidad de adquirir o expandir proyectos con potencial de escalabilidad. Además, los equipos seleccionados tendrán la oportunidad de interactuar directamente con los expertos de Anthropic en diversas áreas, como el equipo de red de frontera, ajuste fino, confianza y seguridad.

Consideraciones y Desafíos

Recordad lo que puede hacer Claude 3 Sonnet en este vídeo.

Aunque la iniciativa de Anthropic es loable, es crucial considerar sus implicaciones. La empresa tiene intereses comerciales en la carrera de la IA, lo que puede generar desconfianza sobre la imparcialidad de sus benchmarks. Anthropic ha sido transparente sobre su deseo de que ciertas evaluaciones se alineen con las clasificaciones de seguridad que ha desarrollado. Sin embargo, esto podría forzar a los solicitantes a aceptar definiciones de «seguridad» o «riesgo» que no comparten.

Algunos expertos también cuestionan las referencias de Anthropic a riesgos «catastróficos» y «engañosos» de la IA, como los relacionados con armas nucleares. Argumentan que estas preocupaciones pueden distraer de los problemas regulatorios actuales más urgentes, como las tendencias alucinatorias de la IA.

Futuro de las Evaluaciones en IA

Anthropic aspira a que su programa sea un catalizador para el progreso hacia un futuro donde la evaluación integral de la IA sea un estándar industrial. Esto es un objetivo que muchas iniciativas abiertas e independientes también comparten. Queda por ver si estas iniciativas estarán dispuestas a colaborar con un proveedor de IA que, en última instancia, responde a sus accionistas.