OpenAI transcribió millones de vídeos de Youtube para entrenar a ChatGPT

Publicado el

chatgpt

Las empresas buscan incansablemente datos para entrenar sus modelos, empujando las fronteras de lo que es legalmente aceptable. Esta semana, un informe del New York Times sacó a la luz cómo compañías como OpenAI y Google han recurrido a métodos creativos para acumular estos valiosos datos, incluyendo la transcripción de millones de horas de contenido de YouTube.

Aunque siempre intento esformarme en explicar lo que las grandes empresas hacen, en esta ocasión se me hace difícil. OpenAI utilizó su modelo Whisper para transcribir videos de YouTube y entrenar así su avanzado modelo GPT-4. Aunque sabían que esto podía ser legalmente discutible, lo consideraron un uso justo. Esta acción refleja la sed de datos y el ingenio para superar los obstáculos legales en pro de la innovación, mientras que los creadores pagamos el pato.

Por otro lado, Google, un gigante en el sector, no se quedó atrás. Confirmaron haber entrenado sus modelos con contenido de YouTube, siempre dentro de los límites de sus acuerdos con los creadores de dicho contenido. También ajustaron su política de privacidad para ampliar el uso de los datos de los consumidores, mostrando una adaptabilidad estratégica frente a las regulaciones existentes.

Meta (anteriormente Facebook), no exento de controversias previas relacionadas con la privacidad de datos, también ha buscado formas de nutrir a sus modelos de IA. La idea de pagar por licencias de libros o incluso adquirir una editorial completa muestra la seriedad con que estas empresas toman el desafío de encontrar datos de calidad para el entrenamiento de IA.

La realidad es que la industria de la IA podría enfrentarse a una crisis de datos para 2028, debido a la creciente demanda y el limitado suministro de información de calidad. Este escenario nos obliga a considerar soluciones alternativas, como la generación de datos sintéticos y el aprendizaje curricular, que aunque prometen, aún no están probadas del todo.

En mi opinión, estamos en un punto de inflexión. La necesidad de datos para entrenar modelos de IA está llevando a las empresas a explorar territorios legales grises. Esto plantea preguntas sobre la ética en el uso de datos y exige una reflexión sobre cómo deben evolucionar las leyes para acompañar el ritmo de la innovación tecnológica.

Podéis leer el informe del NYT en nytimes.com

Comparte en: