Definición de inteligencia artificial de código abierto: el desafío de la transparencia y el equilibrio

Juan Diego Polo

hace 4 meses

Marcado de agua en texto generado por IA

La inteligencia artificial (IA) está en todas partes, y la creciente necesidad de definir claramente lo que es IA de código abierto está generando un intenso debate. Recientemente, el Open Source Initiative (OSI) publicó su versión 1.0 del Open Source AI Definition (OSAID), un intento por establecer criterios claros para que los modelos de IA puedan considerarse de código abierto. Sin embargo, la recepción de esta definición no ha sido unánime, con opiniones encontradas entre diferentes grupos de expertos y usuarios. Vamos a explorar los puntos clave de esta discusión y los desafíos que enfrenta la comunidad tecnológica para lograr una definición inclusiva y transparente.

El nacimiento del OSAID y sus desafíos iniciales

La creación del OSAID no fue sencilla y tomó casi dos años de trabajo en el OSI, incluyendo numerosos debates y revisiones. La intención del OSI era dar una estructura que permitiera que los proyectos de IA de código abierto fueran accesibles y transparentes, fomentando el uso de datos y modelos de manera ética y legal. Sin embargo, como mencionó Carlo Piana, presidente del OSI, el entendimiento de la comunidad sobre el funcionamiento y las implicaciones de la IA sigue siendo limitado y cambia rápidamente. En palabras de Taylor Dolezal, de la Cloud Native Computing Foundation, “balancear los principios de código abierto con las complejidades de la IA puede ser como intentar resolver un cubo de Rubik con los ojos vendados”.

Tres grupos en el debate sobre el OSAID

En el contexto de la definición de código abierto para IA, tres grupos se han posicionado claramente: los pragmáticos, los idealistas y las empresas “faux-source”.

Pragmáticos: este grupo valora la transparencia, pero entiende las limitaciones prácticas y legales para compartir todos los datos. Argumentan que mientras haya suficiente detalle sobre los datos usados para entrenar el sistema, no es necesario que se hagan públicos en su totalidad. La razón principal es que los datos de entrenamiento, como los conjuntos de datos privados o confidenciales, no siempre pueden compartirse sin violar leyes de privacidad o derechos de autor. Esta posición se basa en un balance entre la transparencia y el respeto a la normativa vigente.
Idealistas: al otro extremo, los idealistas creen que cualquier modelo de IA etiquetado como de código abierto debería estar completamente abierto, incluyendo los datos de entrenamiento. Estos defensores argumentan que permitir que modelos con datos propietarios se consideren de código abierto va en contra de la esencia del movimiento, que promueve la libertad y la accesibilidad total. Según Tom Callaway, estratega técnico de AWS, el riesgo es que, al abrir esta puerta, se dañen los principios del código abierto.
Empresas «faux-source»: muchas empresas tecnológicas quieren que sus proyectos de IA sean considerados de código abierto porque, bajo esa regulación, enfrentan menos restricciones que los sistemas privativos. Esto les permite ahorrar en costos y regulaciones, mientras que eluden los principios del código abierto. Meta, por ejemplo, ha argumentado que el concepto de IA de código abierto es difícil de definir debido a la complejidad de los modelos actuales, pero algunos críticos sostienen que esta postura busca simplemente beneficios regulatorios.

El papel de los datos en la definición de IA de código abierto

Uno de los aspectos más complejos en la creación del OSAID fue determinar cómo tratar los conjuntos de datos de entrenamiento. A primera vista, podría parecer que los datos deben compartirse igual que el código fuente en proyectos tradicionales de código abierto. Sin embargo, esta analogía no es precisa. El código fuente proporciona instrucciones explícitas, mientras que los datos influyen en los patrones que los modelos de IA aprenden y generalizan.

Mark Collier, de OpenStack Foundation, lo resume bien: los modelos de IA aprenden a partir de patrones y no siguen instrucciones específicas, lo que significa que el acceso a los datos podría no tener el mismo efecto en la transparencia que el acceso al código en sí. Por esta razón, el OSAID establece que, aunque no se requiere que todos los datos sean públicos, sí debe haber suficiente información sobre el proceso y los conjuntos de datos empleados. Este enfoque permite cierto grado de transparencia, pero evita problemas legales con datos sensibles, como los registros médicos.

Apoyo y críticas al OSAID

Desde su lanzamiento, el OSAID ha contado con el apoyo de organizaciones importantes como la Mozilla Foundation, la OpenInfra Foundation, Bloomberg Engineering, y SUSE. Estos grupos ven la definición como un paso necesario y positivo para la comunidad. Según Percy Liang, de la Universidad de Stanford, el hecho de que el OSAID exija que todo el código de procesamiento de datos sea de código abierto es un logro significativo. No obstante, también advierte que los detalles específicos de cómo se implementa esta definición en la práctica serán cruciales.

Sin embargo, los idealistas mantienen sus reservas. Consideran que permitir el uso de datos cerrados debilita los estándares del código abierto. En una conferencia reciente del OSI, algunos miembros expresaron que sentían que sus opiniones no habían sido consideradas suficientemente en el proceso de creación del OSAID. Este grupo cree que, para mantener la integridad del código abierto, se debería exigir una transparencia completa en los datos y en los métodos de entrenamiento.

El impacto de las definiciones de código abierto en el futuro de la IA

A pesar de las controversias, el OSI tiene claro que se necesita una definición que se adapte al contexto cambiante de la IA. Las leyes en Estados Unidos y la Unión Europea ya están avanzando en regular el uso de IA, y definir el código abierto en IA ayudará a evitar definiciones ambiguas o convenientes para los intereses de grandes empresas. Un ejemplo de una futura regulación es el estándar de Bienes Públicos Digitales (DPG), que se actualizará en GitHub en noviembre, exigiendo datos abiertos para modelos de IA en contextos públicos.

El interés en definir qué es y qué no es la IA de código abierto no solo tiene un componente legal y ético, sino que también tiene repercusiones en la competencia de la industria. Muchas empresas, como OpenAI o Meta, tienen gran interés en que sus proyectos se consideren de código abierto para reducir los costos de regulación, aunque sus prácticas no siempre se alineen con el espíritu del código abierto. Esta presión corporativa ha llevado a que se use el término “faux-source” para referirse a proyectos que se autodenominan de código abierto, pero no cumplen con los principios esenciales de transparencia y accesibilidad.

El futuro del OSAID y el código abierto en IA

El lanzamiento del OSAID es solo el primer paso. El OSI planea revisiones continuas de la definición conforme evolucionen las necesidades y el entendimiento de la IA. Sin embargo, es probable que la discusión continúe durante años, pues los intereses en juego son complejos y diversos.

Para los usuarios comunes, estas definiciones pueden no tener un impacto inmediato, ya que la mayoría solo busca usar la IA para tareas cotidianas. Sin embargo, para las empresas y organismos gubernamentales, contar con una IA de código abierto confiable y transparente es crucial tanto para el desarrollo tecnológico como para el cumplimiento normativo.