La autodestrucción de la IA: el peligro de entrenar modelos con contenido generado por IA

En un giro irónico, el contenido generado por inteligencia artificial (IA) está inundando la web y, paradójicamente, esto podría convertirse en un gran problema para los modelos generativos de IA. Un fenómeno que algunos investigadores han empezado a llamar «Habsburg IA» —en referencia a la familia real europea famosa por su endogamia— describe cómo el entrenamiento de modelos de IA con datos generados por otras IA puede llevar a una erosión de su rendimiento.

El peligro de la autoconsumo de datos

Los modelos de IA son insaciables en cuanto a datos y muchas compañías han utilizado enormes cantidades de información extraída de internet para entrenar sus programas. Sin embargo, la falta de regulaciones que obliguen a etiquetar el contenido generado por IA hace que este tipo de datos se cuele en los conjuntos de entrenamiento de nuevos modelos, creando un ciclo de autoconsumo que los investigadores han denominado «MAD» (Model Autophagy Disorder), o «Trastorno de Autofagia de Modelos».

Según Sina Alemohammad, estudiante graduado de la Universidad de Rice y coautor del estudio que introdujo el término MAD, “la web se está convirtiendo en un lugar cada vez más peligroso para buscar datos”. Esto se debe a que la contaminación de datos generados por IA podría acabar debilitando la precisión de los nuevos modelos.

El ciclo de autodestrucción de los modelos de IA

El problema va más allá de los datos de baja calidad. Un reciente estudio publicado en la revista Nature mostró cómo un modelo de IA entrenado con datos generados por otras IA comenzó a perder coherencia tras solo cuatro iteraciones. Cuando se le pidió al modelo completar la frase “Para cocinar un pavo de Acción de Gracias, usted…”, el resultado inicial era coherente, pero ya en la cuarta iteración, el texto se convirtió en un galimatías repetitivo y sin sentido.

Otro caso fue el de modelos de imágenes entrenados con fotos generadas de rostros humanos falsos. En pocos ciclos de entrenamiento, los rostros generados por la IA comenzaron a converger hacia una apariencia similar, eliminando la diversidad que había en las generaciones iniciales.

El problema de la falta de diversidad y la perpetuación de sesgos

La falta de diversidad en los datos no solo reduce la calidad de las salidas de la IA, sino que también perpetúa los sesgos algorítmicos. Los sesgos ya son un problema significativo en la IA, y la autoconsumo de datos podría exacerbarlo al producir resultados homogéneos y no representativos de la realidad. Esto podría tener consecuencias graves en aplicaciones sensibles como el reconocimiento facial o la toma de decisiones automatizadas.

La necesidad de datos de calidad

Los datos de alta calidad y producidos por humanos han sido fundamentales para los recientes avances en la tecnología de IA generativa. Sin embargo, a medida que el contenido generado por IA sigue inundando la web y se vuelve más difícil distinguir lo real de lo falso, las empresas de IA podrían enfrentar serias dificultades para mantener la integridad de sus modelos.

Si los modelos continúan entrenándose con datos reciclados de otras IA, corren el riesgo de volverse menos precisos y menos útiles, afectando potencialmente a industrias enteras que dependen de la inteligencia artificial para operar.

El futuro de la IA y la batalla contra la autoconsumo

La solución a este problema no es simple, pero podría comenzar con la implementación de medidas para etiquetar el contenido generado por IA y desarrollar técnicas para filtrar datos de baja calidad. Sin embargo, el camino es complicado, y la lucha por preservar la integridad de los modelos de IA podría definir la próxima etapa de esta tecnología.

Por otro lado, si Google ya no envía visitas a los medios que crean contenido original, y el modelo de suscripción está roto, hay poco incentivo para que los responsables por los contenidos continúen realizando su trabajo…