Google confirma usar datos públicos en la web para entrenar sus modelos de IA

Fco. José Hidalgo

hace 2 años

Acorde a los tiempos actuales en los que vivimos, Google acaba de actualizar sus Políticas de Privacidad para reflejar oficialmente que hacen uso de la información que se encuentra disponible públicamente en Internet para llevar a cabo el entrenamiento de sus modelos de IA.

Estas políticas actualizadas entraron en vigor el pasado sábado 1 de julio, otorgando más transparencia a sus políticas para reflejar los cambios que se han venido produciendo en los últimos meses con la aparición de nuevos servicios basados en la IA generativa, como es el caso de Google Bard, el chatbot de Google para competir contra ChatGPT de OpenAI.

De manera exacta, señalan que:

Google utiliza la información para mejorar nuestros servicios y desarrollar nuevos productos, funciones y tecnologías que beneficien a nuestros usuarios y al público. Por ejemplo, usamos información disponible públicamente para ayudar a entrenar los modelos de IA de Google y crear productos y funciones como Google Translate, Bard y capacidades de IA en la nube.

Dos aspectos que necesitará abordar

Ahora bien, pese a que Google también cuenta con una serie de principios relacionados con la IA para mantener la salvaguarda y la protección de la privacidad de los usuarios, en la actualidad no hace mención a la posible discriminación que pudiera llevar a cabo (o no) para dejar de lado el material de acceso público en Internet que pueda contar con derechos de autor o si respecta (o no) las políticas de muchos sitios web contra el raspado de datos.

Y es que frente a los problemas que están teniendo compañías como Stability AI por el uso de material con derechos de autor sin permiso alguno para el entrenamiento de sus modelos de IA generativa, son cada vez más las otras compañías tecnológicas que toman precauciones al respecto.

Un claro ejemplo de ello lo tenemos con Adobe y su familia de modelos de IA generativa Firefly, que cuenta con un enfoque respetuoso con los creadores, haciendo uso de creaciones sin derechos de autor o bien disponga de licencia o derechos de uso.

Y en lo que respecta a las políticas anti-raspado de datos que muchos sitios web vienen aplicando en estas últimas semanas, tenemos el claro de Twitter, como comentamos ayer, así como Reddit, que también es un lugar donde se comparte bastante información jugosa hasta el punto de ser usada para el entrenamiento de modelos de IA, algo a lo que desde la plataforma pretende hacer frente con el cambio en sus políticas sobre el uso de la API.

Los avances en IA de Google no son bien vistos en el ámbito editorial

En lo que respecta a Google, la publicación The Verge da cuenta de que la compañía ya cuenta con una demanda puesta por Gannett, la editorial de periódicos más importante de los Estados Unidos, que acusa a Google y a su empresa matriz de ser un monopolio de la publicidad digital, señalando además a los nuevos servicios basados en IA como «motores de plagio» que han llevado incluso a privar de tráfico a los sitios web.

Google tiene ante sí un panorama complicado al que tarde o temprano tendrá que dar respuesta, eso sin contar con las diferentes regulaciones existentes en distintos mercados, lo que hace que la solución pueda llegar a ser aún más compleja.