Harvard libera un enorme dataset de libros para la IA con el apoyo de OpenAI y Microsoft

Publicado el

En un anuncio que promete revolucionar el acceso a los recursos de entrenamiento para modelos de inteligencia artificial (IA), la Universidad de Harvard ha presentado un dataset de alta calidad compuesto por casi un millón de libros de dominio público. Este proyecto ha sido desarrollado por la nueva Iniciativa Institucional de Datos de Harvard (Institutional Data Initiative) con el respaldo financiero de OpenAI y Microsoft. La colección está basada en libros digitalizados como parte del proyecto Google Books, asegurando que estén libres de derechos de autor.

Un recurso accesible para todos

Con un volumen cinco veces mayor que el conocido dataset Books3, utilizado para entrenar modelos como Llama de Meta, esta nueva base de datos abarca una amplia variedad de géneros, idiomas y periodos históricos. Desde los clásicos de Shakespeare, Dickens y Dante hasta textos técnicos menos conocidos como manuales de matemáticas checos y diccionarios galeses de bolsillo, este dataset está diseñado para ser inclusivo y diverso.

Según Greg Leppert, director ejecutivo de la Iniciativa Institucional de Datos, el objetivo principal es «nivelar el terreno de juego», permitiendo que investigadores individuales y pequeñas empresas tecnológicas accedan a una fuente de datos que tradicionalmente solo ha estado disponible para las grandes corporaciones. Leppert también asegura que la base de datos ha pasado por rigurosos procesos de revisión para garantizar su calidad.

Desde wwwhatsnew.com consideramos que esta iniciativa puede marcar un antes y un después en la democratización del acceso a datos esenciales para el desarrollo de herramientas de inteligencia artificial. Es como si, en lugar de que solo unas pocas empresas tengan acceso a una gran biblioteca, todos pudieran entrar y usar los recursos para crear sus propias herramientas.

Un paralelismo con Linux en el mundo de la IA

Greg Leppert compara este dataset con Linux, un sistema operativo de código abierto que se ha convertido en la base de innumerables desarrollos tecnológicos en todo el mundo. Sin embargo, también aclara que las empresas necesitarán complementar este recurso con otros datos licenciados para diferenciar sus modelos en un mercado competitivo.

Esto refuerza la idea de que los datos públicos pueden ser un punto de partida poderoso, pero no el único componente necesario para desarrollar modelos de IA avanzados. Desde nuestro punto de vista en WWWhatsnew, creemos que esta mezcla entre recursos de dominio público y datos propietarios podría definir el futuro de la industria.

Apoyo corporativo y colaboraciones futuras

El proyecto también cuenta con el respaldo de Microsoft y OpenAI, que destacan la importancia de crear «reservorios de datos accesibles» gestionados en beneficio del interés público. Microsoft, por ejemplo, subraya que si bien este dataset es un gran recurso, no necesariamente reemplazará por completo los datos que utilizan en sus propios modelos.

Por otro lado, OpenAI ha mostrado su entusiasmo por la iniciativa, destacándola como una gran oportunidad para enriquecer el ecosistema de la IA. Como señala Tom Rubin, jefe de propiedad intelectual y contenido de OpenAI, proyectos como éste tienen el potencial de cambiar la narrativa sobre cómo se accede y utiliza la información para el entrenamiento de modelos de IA.

Además, la Iniciativa Institucional de Datos está colaborando con la Biblioteca Pública de Boston para digitalizar millones de artículos de periódicos que también están en dominio público. En el futuro, podrían formarse asociaciones similares para expandir el alcance del proyecto.

Un debate necesario sobre derechos de autor

Este anuncio llega en un momento crucial en el que diversas demandas legales cuestionan el uso de contenido protegido por derechos de autor en el entrenamiento de modelos de IA. Si las empresas de inteligencia artificial ganan estas batallas legales, podrían seguir recopilando datos sin necesidad de acuerdos de licencia. Pero si pierden, el modelo actual de entrenamiento de IA tendrá que cambiar significativamente.

Los datasets de dominio público, como el que ahora presenta Harvard, surgen como una alternativa viable para evitar conflictos legales y garantizar un uso ético de los datos. Proyectos similares, como el dataset Common Corpus de la startup francesa Pleias, están demostrando que es posible construir modelos de IA efectivos sin depender de material protegido.

Desde wwwhatsnew.com creemos que este tipo de iniciativas también podrían impulsar un cambio cultural en la forma en que se desarrollan estas tecnologías, promoviendo un enfoque más transparente y equitativo.

Retos y oportunidades

A pesar de las ventajas, algunos expertos, como Ed Newton-Rex, expresan preocupaciones sobre si estos datasets realmente cambiarán el panorama actual. Si los datos de dominio público solo se suman a datasets existentes que también incluyen contenido no licenciado, el beneficio será principalmente para las empresas de IA, dejando a los creadores y titulares de derechos sin protección.

Sin embargo, la disponibilidad de estas bases de datos públicas ofrece una oportunidad única para equilibrar la balanza y fomentar un ecosistema de IA más inclusivo. Como hemos mencionado en otras ocasiones en WWWhatsnew, el acceso abierto y ético a los datos será fundamental para el desarrollo sostenible de estas tecnologías.

Comparte en: