El polémico uso de transcripciones de YouTube para entrenar modelos de IA

Juan Diego Polo

hace 7 meses

El mundo de la tecnología no deja de sorprendernos, y esta vez el escándalo viene de la mano de gigantes como Apple, NVIDIA y Anthropic. Una investigación reciente de Proof News ha revelado que estas empresas han estado entrenando sus modelos de inteligencia artificial (IA) utilizando transcripciones de más de 173,000 videos de YouTube sin el permiso de los creadores. Este descubrimiento pone de manifiesto una incómoda verdad sobre la IA: gran parte de su desarrollo se basa en datos obtenidos sin el consentimiento de quienes los generaron.

La Fuente del Problema

El origen de esta controversia se encuentra en un dataset creado por la organización sin fines de lucro EleutherAI. Este conjunto de datos no incluye videos ni imágenes de YouTube, pero sí contiene las transcripciones de videos de más de 48,000 canales, entre los cuales se encuentran algunos de los creadores más populares como Marques Brownlee y MrBeast, así como grandes medios de comunicación como The New York Times, BBC y ABC News. Incluso, algunos videos de Engadget forman parte de este dataset.

La Reacción de los Creadores

Marques Brownlee, conocido creador de contenido tecnológico, expresó su frustración en X (anteriormente Twitter), mencionando cómo Apple y otras empresas habían utilizado transcripciones de sus videos sin su consentimiento. «Uno de ellos raspó toneladas de datos/transcripciones de videos de YouTube, incluyendo los míos», comentó. Esta situación ilustra un problema que, según él, persistirá por mucho tiempo.

¿Y las Grandes Empresas?

Ni YouTube, ni Apple, NVIDIA, Anthropic o EleutherAI respondieron a las solicitudes de comentarios realizadas por Engadget. La falta de transparencia en el uso de datos para entrenar modelos de IA ha sido un tema recurrente. Apenas este mes, artistas y fotógrafos criticaron a Apple por no revelar las fuentes de los datos utilizados para entrenar Apple Intelligence, la nueva IA generativa de la compañía.

El Valor de YouTube en la Era de la IA

YouTube es una mina de oro para entrenar modelos de IA, no solo por las transcripciones, sino también por el audio, video e imágenes que alberga. Este inmenso repositorio de datos lo convierte en un recurso extremadamente atractivo para las empresas tecnológicas. Sin embargo, su uso sin el debido permiso viola claramente los términos de servicio de la plataforma, como han señalado tanto el CEO de YouTube, Neal Mohan, como el CEO de Alphabet, Sundar Pichai.

¿Cómo Nos Afecta Esto?

Quizás te preguntes cómo nos impacta directamente a los usuarios. Primero, está el tema de la privacidad y el respeto hacia los creadores de contenido. ¿Es justo que nuestras transcripciones, audios o videos sean utilizados sin nuestra autorización? Además, existe el riesgo de que estos datos sean mal utilizados o interpretados fuera de contexto.

En WWWhatsnew.com, siempre estamos atentos a cómo estas prácticas afectan tanto a los creadores como a los consumidores de tecnología. Nos esforzamos por mantenerte informado sobre los desarrollos más recientes y sus implicaciones.

Reflexión Personal

En mi opinión, las grandes empresas tecnológicas deben ser mucho más transparentes y éticas en el manejo de los datos que utilizan para sus avances en IA. No se trata solo de cumplir con la legalidad, sino de respetar a quienes generan el contenido que hace posible estos avances. ¿Qué opinas tú? ¿Deberían las empresas ser más abiertas sobre sus fuentes de datos? Déjanos tu opinión en los comentarios.

Lo Que Puedes Hacer

Si quieres saber si las transcripciones de tus videos de YouTube o de tus canales favoritos están en el dataset, Proof News ha habilitado una herramienta de búsqueda que puedes usar para averiguarlo. Es un primer paso hacia la transparencia y el respeto por los derechos de los creadores.