WWWhat's new

Entrenando modelos de IA con datos generados con IA, peligros y posibilidades

ia entrenando a ia

ChatGPT, Claude, Pi, Perplexity y demás modelos de IA generativa de texto han sido entrenados con los datos que hay en Internet y en documentos diversos de colecciones públicas y privadas, incluyendo transcripciones de vídeos de Youtube.

Midjourney, DALL-E, Leonardo AI y otros sistemas de generación de imágenes se han entrenado con millones de fotos e ilustraciones encontradas por la web (algunas de ellas protegidas por derechos de autor, pero eso es otro tema).

El caso es que muchos de los modelos con los que trabajamos a diario han sido entrenados con contenido hecho por humanos, pero ese contenido cada vez es menor, por lo que comienza ahora la etapa de modelos de IA entrenados con lo que la IA genera.

Pongamos ejemplos prácticos: Internet se ha llenado de artículos creados con ChatGPT, por lo que ChatGPT se está entrenando con el contenido que el mismo genera. Firefly se ha entrenado con fotos de stock, pero hay informes que indican que un 5% del entrenamiento se ha realizado con contenido generado por Midjourney, por lo que tenemos fotos creadas con IA entrenada con fotos creadas con IA… un buen ciclo.

El caso es que el entrenamiento de modelos de inteligencia artificial (IA) utilizando datos generados por otras IA es un campo que aún requiere mucho estudio, y ofrece tanto oportunidades significativas como desafíos considerables. Aquí te explico los aspectos clave de esta práctica:

Posibilidades

Peligros

Estrategias para mitigar riesgos

Si entramos en este mundillo, es fundamental validar modelos entrenados con datos generados por IA usando conjuntos de datos de prueba independientes y realistas. Combinar datos generados con grandes volúmenes de datos reales puede ayudar a mejorar la robustez y generalización del modelo, de es no hay duda, pero los modelos en producción necesitan monitoreo continuo para asegurar que siguen funcionando como se espera frente a nuevas situaciones y datos.

Como siempre en la tecnología, la clave está en utilizar estas herramientas con responsabilidad y una comprensión clara de sus limitaciones y riesgos inherentes. El problema es que muchas veces las prisas no permiten meter la variable de la responsabilidad dentro del círculo.