En un reciente artículo publicado en el servidor de preimpresión arXiv, un equipo de investigadores británicos y canadienses advierte sobre el impacto de los modelos de lenguaje en la generación de contaminación verbal.
Estos investigadores exploraron el efecto de las sucesivas generaciones de texto generado por ChatGPT, y llegaron a la conclusión de que esto podría socavar los propios datos en los que se entrenan dichos modelos.
El colapso del modelo y el olvido catastrófico
El equipo de investigación describe el colapso del modelo como un proceso degenerativo en el cual, a medida que los modelos aprenden de datos generados por otros modelos, olvidan la verdadera distribución de datos subyacente.
Esta situación se asemeja al fenómeno del olvido catastrófico, en el cual un modelo olvida abruptamente datos anteriores cuando aprende nueva información. Con el tiempo, estos problemas se agravan y afectan la calidad de los datos generados.
Envenenamiento de datos y contaminación generalizada
El envenenamiento de datos, la inserción maliciosa de información falsa, es una amenaza previa al surgimiento de los grandes modelos de lenguaje. Sin embargo, con la automatización y el uso de rastreos web a gran escala, incluso una pequeña cantidad de datos maliciosos puede llevar a una contaminación generalizada.
Los investigadores advierten sobre la escala a la que puede ocurrir este envenenamiento una vez que se automatiza con los grandes modelos de lenguaje.
La naturaleza del aprendizaje recursivo y la pérdida de eventos de baja probabilidad
El aprendizaje recursivo lleva a los modelos a prescindir de eventos de baja probabilidad, también conocidos como «colas de la distribución». Estos eventos son vitales para comprender sistemas complejos, y su desaparición en el entrenamiento de los modelos genera defectos irreversibles y lleva al texto generado a convertirse en basura en tan solo unas pocas generaciones.
Preservar el contenido original y tomar medidas
Los primeros modelos de lenguaje grande se entrenaron en texto generado por humanos, pero con la rápida adopción de ChatGPT, enormes cantidades de datos generados por IA están saturando los sitios en línea.
Los investigadores instan a tomar medidas para distinguir entre el contenido de IA y el contenido generado por humanos, y también hacen hincapié en la importancia de preservar el contenido original para futuros propósitos de capacitación.
Los grandes modelos de lenguaje y su amenaza de contaminación verbal
La amenaza de la contaminación verbal generada por los grandes modelos de lenguaje es un tema de preocupación para los investigadores. El colapso del modelo, el olvido catastrófico, el envenenamiento de datos y la pérdida de eventos de baja probabilidad son algunos de los problemas identificados.
Frente a este escenario, es de gran importancia tomar medidas para abordar estos desafíos y encontrar soluciones que permitan aprovechar las ventajas de los grandes modelos de lenguaje sin comprometer la calidad del contenido generado.