¿Alguna vez te has preguntado de dónde provienen los datos que alimentan las inteligencias artificiales que usamos a diario? Un nuevo instrumento, Data Provenance Explorer, se presenta como un faro en la neblina, buscando aportar claridad y transparencia al complejo mundo de los conjuntos de datos en IA generativa.
La procedencia de datos es un término que se refiere al origen y el recorrido de un conjunto de datos: cómo se recopiló, procesó y transformó. Conocer la procedencia es vital para entender la legalidad y la ética detrás del uso de estos datos, especialmente en aplicaciones de IA que pueden tener implicaciones comerciales o sociales.
El Data Provenance Explorer es el resultado de un esfuerzo conjunto entre expertos en aprendizaje automático y derecho de instituciones como el MIT, Cohere, Harvard Law School, Carnegie Mellon University y Apple. Esta colaboración interdisciplinaria busca abordar las complejidades legales y éticas que rodean a los datos de entrenamiento de IA.
Según el equipo detrás de la herramienta, existe una crisis de transparencia en datos. Plataformas de código abierto como GitHub y Papers with Code tienen un alto porcentaje de conjuntos de datos sin licencia, que oscila entre el 72% y el 83%. Esto crea un terreno fértil para ambigüedades legales y éticas.
Kathy Lange, directora de investigación para IDC, señala que la industria de la IA está cada vez más centrada en el uso seguro y legal de los datos. Aquellos proveedores de IA que prioricen la transparencia, responsabilidad y cumplimiento en la procedencia de datos tendrán una ventaja competitiva.
Herramientas como Nightshade están surgiendo para alterar sutilmente obras de arte digitales y dificultar su uso en entrenamiento de IA. Paralelamente, hay acciones legales en curso por parte de titulares de derechos de autor, como la comediante y autora Sarah Silverman, que están demandando a empresas como OpenAI.
El caso de ChatGPT
Los modelos de lenguaje son algoritmos de aprendizaje automático que se entrenan utilizando grandes cantidades de texto. Este entrenamiento les permite generar respuestas coherentes y contextualmente relevantes a las preguntas o comandos que reciben.
Los datos para entrenar modelos como ChatGPT provienen de una variedad de fuentes, que incluyen libros, artículos académicos, sitios web, foros en línea y más. Estos datos se procesan y filtran para entrenar el modelo.
Conocer el origen de los datos es crucial, no solo para la eficacia del modelo sino también para abordar cuestiones éticas como el sesgo y la representatividad. La procedencia de los datos puede influir en cómo el modelo interactúa con los usuarios y en las respuestas que genera.
Empresas como OpenAI, que desarrollan modelos como ChatGPT, están tomando medidas para ser más transparentes sobre las fuentes de datos y cómo se manejan aspectos como el sesgo y la ética. Sin embargo, la transparencia completa es un desafío debido a la magnitud de los datos y las implicaciones legales.
El Data Provenance Explorer es un paso hacia un futuro donde la transparencia y la ética en IA generativa sean la norma y no la excepción. Su impacto podría ser significativo en cómo se desarrollan, se despliegan y se regulan futuras aplicaciones de IA, aunque aún faltan muchos protagonistas del sector que tendrían que involucrarse bastante en este tema para que las soluciones no sean parches.
Más información en Data Provenance Explorer