¿Qué es BookCorpus? Una de las fuentes usadas por ChatGPT durante su entrenamiento

Publicado el

bookcorpus

Como modelo de lenguaje entrenado por OpenAI, ChatGPT ha pasado por un proceso de entrenamiento que involucra una amplia gama de recursos y datos que se actualizan y cambian continuamente.

Su conocimiento se basa en una amplia variedad de fuentes, incluyendo sitios web, publicaciones de noticias, libros, artículos de revistas y muchos otros documentos. Algunas de las fuentes generales que se utilizan para el entrenamiento del modelo incluyen Wikipedia, Common Crawl, OpenWebText y BookCorpus.

Hoy hablaré de esta última, BookCorpus, una gran colección de libros electrónicos utilizados para entrenar modelos de procesamiento de lenguaje natural.

Qué es BookCorpus

Fue creado por la Universidad de Toronto en colaboración con la empresa de tecnología de lenguaje natural GoodAI, y está compuesto por más de 11.000 libros en inglés, seleccionados de una variedad de géneros y estilos literarios. Los libros incluidos en BookCorpus se seleccionaron cuidadosamente para asegurar una mezcla diversa de temas y estilos de escritura.

BookCorpus es una de las fuentes de datos de texto en inglés más grandes y diversas disponibles para el entrenamiento de modelos de lenguaje natural. La utilización de una colección de libros electrónicos permite que los modelos entrenados con BookCorpus tengan una comprensión profunda del lenguaje humano, lo que les permite generar texto coherente y preciso en una variedad de contextos y situaciones.

Cómo se usa para entrenar una Inteligencia Artificial

Queda claro así que BookCorpus es una colección de libros electrónicos de dominio público y con derechos de autor que se pueden utilizar para entrenar modelos de procesamiento de lenguaje natural, como las redes neuronales de lenguaje. Para usar BookCorpus para entrenar una IA, se pueden seguir los siguientes pasos:

– Descargar la colección de libros electrónicos de BookCorpus desde la fuente de datos original o desde un repositorio en línea.

– Preprocesar los libros electrónicos para eliminar cualquier formato no deseado, como los metadatos de los libros.

– Tokenizar los libros electrónicos, es decir, dividirlos en oraciones, palabras o subpalabras que el modelo pueda entender.

– Crear un modelo de lenguaje natural, como una red neuronal, y entrenarlo utilizando los libros electrónicos preprocesados de BookCorpus.

– Evaluar el modelo entrenado en un conjunto de datos de prueba para determinar su eficacia en tareas específicas de procesamiento del lenguaje natural, como la generación de texto, la traducción automática, la clasificación de texto, entre otras.

– Ajustar y afinar el modelo para mejorar su rendimiento en tareas específicas de procesamiento del lenguaje natural.

Este proceso requiere un alto grado de conocimientos técnicos en el campo del procesamiento del lenguaje natural y la inteligencia artificial, siendo además necesario usar otras fuentes de datos, técnicas de preprocesamiento y algoritmos de entrenamiento para lograr los resultados deseados.

La polémica detrás de BookCorpus

BookCorpus ha ayudado a entrenar a muchos modelos de lenguaje influyentes, y ya ha sido objeto de investigación. Aunque muchos investigadores han utilizado BookCorpus desde su introducción, la documentación sigue siendo escasa, y no está claro qué contenía exactamente el conjunto de datos.

Hace unos meses se publicó un artículo que analiza más de cerca el contenido de BookCorpus, que resulta ser una muestra de libros de Smashwords.com. Los investigadores descargaron todos los libros gratuitos de más de 20.000 palabras, lo que resultó en 11.038 libros. Sin embargo, se encontró que miles de estos libros eran duplicados, y solo 7.185 eran únicos.

Se descubrió que BookCorpus contenía infracciones de derechos de autor para cientos de libros que no deberían haber sido redistribuidos a través de un conjunto de datos gratuito, y al menos 406 libros incluidos en el conjunto de datos gratuito de BookCorpus ahora cuestan dinero en Smashwords. Además, el conjunto de datos tiene una representación desproporcionada del género romántico y un sesgo potencial en la representación religiosa.

Además de estos problemas, el conjunto de datos contiene contenido potencialmente problemático que podría contribuir a la discriminación de género en los modelos de lenguaje. Por ejemplo, algunos de los libros en BookCorpus contienen contenido sexual explícito.

Este documento de investigación resalta la importancia de documentar y analizar los conjuntos de datos utilizados en el aprendizaje automático, así como la necesidad de una mayor transparencia y consideraciones éticas cuando se utilizan estos conjuntos de datos para entrenar modelos de lenguaje. Los investigadores también sugieren que se necesitan más esfuerzos para mejorar la calidad de la documentación y la transparencia de los conjuntos de datos utilizados en el aprendizaje automático.

Comparte en: