Entrenando modelos de IA con datos generados con IA, peligros y posibilidades

Juan Diego Polo

hace 10 meses

ChatGPT, Claude, Pi, Perplexity y demás modelos de IA generativa de texto han sido entrenados con los datos que hay en Internet y en documentos diversos de colecciones públicas y privadas, incluyendo transcripciones de vídeos de Youtube.

Midjourney, DALL-E, Leonardo AI y otros sistemas de generación de imágenes se han entrenado con millones de fotos e ilustraciones encontradas por la web (algunas de ellas protegidas por derechos de autor, pero eso es otro tema).

El caso es que muchos de los modelos con los que trabajamos a diario han sido entrenados con contenido hecho por humanos, pero ese contenido cada vez es menor, por lo que comienza ahora la etapa de modelos de IA entrenados con lo que la IA genera.

Pongamos ejemplos prácticos: Internet se ha llenado de artículos creados con ChatGPT, por lo que ChatGPT se está entrenando con el contenido que el mismo genera. Firefly se ha entrenado con fotos de stock, pero hay informes que indican que un 5% del entrenamiento se ha realizado con contenido generado por Midjourney, por lo que tenemos fotos creadas con IA entrenada con fotos creadas con IA… un buen ciclo.

El caso es que el entrenamiento de modelos de inteligencia artificial (IA) utilizando datos generados por otras IA es un campo que aún requiere mucho estudio, y ofrece tanto oportunidades significativas como desafíos considerables. Aquí te explico los aspectos clave de esta práctica:

Posibilidades

Ampliación de datos: Una de las grandes ventajas es la capacidad de generar grandes volúmenes de datos sintéticos para entrenar modelos. Esto es especialmente útil en campos donde los datos reales son escasos, caros de obtener o implican preocupaciones éticas, como en la medicina.
Diversificación de escenarios: Los datos generados por IA pueden ayudar a modelar situaciones que son difíciles de capturar en el mundo real, lo que permite a los sistemas aprender a manejar una gama más amplia de escenarios.
Aceleración del aprendizaje: Al generar datos específicamente diseñados para exponer a la IA a casos particulares o bordes de su capacidad operativa, se puede acelerar el proceso de aprendizaje, haciéndolo más eficiente y efectivo.

Peligros

Propagación de sesgos: Si los datos generados por IA se basan en datos sesgados, estos sesgos se pueden amplificar. Un modelo entrenado con datos generados puede heredar y perpetuar los prejuicios existentes en los datos originales.
Realismo y varianza: Los datos sintéticos pueden no capturar toda la complejidad y variabilidad del mundo real, llevando a modelos que funcionan bien en situaciones simuladas pero fallan en escenarios reales. Imaginad a un sistema entrenado con fotos que hacen mal los dedos de las manos…
Dependencia de la calidad del generador: La calidad del modelo de IA que genera los datos es crucial. Un modelo generativo defectuoso o limitado puede producir datos de baja calidad que a su vez podrían comprometer la fiabilidad del modelo entrenado con estos datos.
Complicaciones éticas y legales: El uso de datos generados por IA puede plantear preguntas sobre la autoría, la propiedad de los datos y el consentimiento, especialmente si los datos originales están protegidos por derechos de autor o incluyen información personal.

Estrategias para mitigar riesgos

Si entramos en este mundillo, es fundamental validar modelos entrenados con datos generados por IA usando conjuntos de datos de prueba independientes y realistas. Combinar datos generados con grandes volúmenes de datos reales puede ayudar a mejorar la robustez y generalización del modelo, de es no hay duda, pero los modelos en producción necesitan monitoreo continuo para asegurar que siguen funcionando como se espera frente a nuevas situaciones y datos.

Como siempre en la tecnología, la clave está en utilizar estas herramientas con responsabilidad y una comprensión clara de sus limitaciones y riesgos inherentes. El problema es que muchas veces las prisas no permiten meter la variable de la responsabilidad dentro del círculo.