ChatGPT ha sido entrenado con lo que tú publicas en Internet, sin tu permiso

Juan Diego Polo

hace 3 años

Cuando publicamos contenido en Internet podemos definir un tipo de licencia: puede usarse para cualquier cosa de forma gratuita y sin permiso, no puede usarse en ningún lugar, solo puede usarse en sitios sin ánimo de lucro y siempre con permiso… hay licencias de todo tipo diseñadas para que tengamos cierto control sobre la distribución del contenido.

De esa forma, si alguien publica un artículo sobre «los beneficios de jubilarse en una casa de campo», y decide que nadie puede usar ese contenido, ni siquiera con permiso, debe respetarse, porque en caso contrario, pueden llamarse abogados para que lo hablen entre ellos.

El caso es que es relativamente sencillo saber si alguien ha usado nuestro contenido en Internet. Hay herramientas que detectan copias, y otras más sofisticadas que identifican plagio en párrafos, pero con los chatbots como ChatGPT todo es más complicado.

ChatGPT responde a prácticamente cualquier pregunta, y lo hace gracias a la información con la que se alimentó en su momento a su cerebro.

Cuando pregunto a ChatGPT de dónde viene esa información, me dice:

La información con la que me han alimentado proviene de una amplia variedad de fuentes en Internet. Estas fuentes incluyen libros, artículos, sitios web y otros documentos que se han utilizado para entrenar a un modelo de lenguaje grande. Este modelo de lenguaje grande es luego el que me da la capacidad de responder a preguntas y conversar con las personas.

Y cuando le pregunto si han pedido permiso a dichas fuentes, me comenta:

En general, los modelos de lenguaje grande como yo suelen entrenarse en grandes conjuntos de datos que incluyen información de Internet, y estos conjuntos de datos a menudo se recopilan de forma automatizada. Es posible que algunas de estas fuentes no hayan dado su permiso para que su información se utilice de esta manera, pero no tengo forma de saberlo.

Está claro que si pregunto a ChatGPT cuáles son «los beneficios de jubilarse en una casa de campo», me dará una respuesta fiable, pero esa respuesta la habrá obtenido de una o más fuentes de Internet, y seguramente los autores de los artículos originales no sabrán que su contenido se está usando de esa forma.

Ese es uno de los grandes problemas de ChatGPT. De momento no hay ánimo de lucro, ChatGPT es gratis, pero cuando haya un modelo de negocio por detrás, los creadores de contenido buscarán similitudes entre las respuestas dadas por ChatGPT y el contenido que ellos crearon en su momento, y llegará el día en el que tengan que hacerse cuentas.