IA para analizar manuscritos de civilizaciones antiguas

Publicado el

Latín

Existen registros de relatos históricos de la humanidad, editados como texto en formatos físicos, que se cuentan por millones mientras se acumulan con todos los resguardos pertinentes en bibliotecas, museos y archivos de todo el mundo.

Aunque parte importante de este material se encuentra digitalizado, hay expertos que señalan que existe una cantidad importante de material que nunca se ha leído, piezas históricas que podrían ser rescatadas gracias al desarrollo de una nueva tecnología.

Rescate de la memoria histórica, con la ayuda de una IA

Investigadores de la Universidad de Notre Dame presentaron una red neuronal artificial que están desarrollando, para leer la escritura antigua compleja basada en la percepción humana para mejorar las capacidades de transcripción del aprendizaje profundo.

«Estamos tratando con documentos históricos escritos en estilos que han pasado de moda durante mucho tiempo, que se remontan a muchos siglos atrás, y en idiomas como el latín, que rara vez se usan más», dijo Walter Scheirer, profesor asociado del Colegio Dennis O. Doughty en el Departamento de Ciencias de la Computación e Ingeniería de Notre Dame. «Puede obtener hermosas fotos de estos materiales, pero lo que nos hemos fijado hacer es automatizar la transcripción de una manera que imite la percepción de la página a través de los ojos del lector experto y proporcione una lectura rápida y fácil de buscar del texto».

En su estudio, Scheirer describe cómo su equipo combinó los métodos tradicionales de aprendizaje automático con la psicofísica visual, un método para medir las conexiones entre los estímulos físicos y los fenómenos mentales, como la cantidad de tiempo que le toma a un lector experto reconocer un personaje específico, medir la calidad de la escritura a mano o identificar el uso de ciertas abreviaturas.

El equipo de Scheirer estudió manuscritos latinos digitalizados que fueron escritos por escribas en el Claustro de St. Gall, hogar de aproximadamente 160.000 volúmenes de manuscritos literarios e históricos que datan del siglo VIII, todos los cuales están escritos a mano, en pergamino, en idiomas raramente hablados en los tiempos modernos.

Los lectores ingresaron sus transcripciones manuales en una interfaz de software especialmente diseñada. A continuación, el equipo midió los tiempos de reacción durante la transcripción para comprender qué palabras, caracteres y pasajes eran fáciles o difíciles. Scheirer explicó que incluir ese tipo de datos creaba una red más consistente con el comportamiento humano, reducía los errores y proporcionaba una lectura más precisa y realista del texto.

«Es una estrategia que no se usa normalmente en el aprendizaje automático», comentó Scheirer. «Estamos etiquetando los datos a través de estas mediciones psicofísicas, que provienen directamente de los estudios psicológicos de la percepción, al tomar mediciones de comportamiento. Luego informamos a la red de dificultades comunes en la percepción de estos personajes y podemos hacer correcciones basadas en esas mediciones».

El uso del aprendizaje profundo para transcribir textos antiguos es algo de gran interés para los estudiosos de las humanidades.

«Hay una diferencia entre simplemente tomar las fotos y leerlas, y tener un programa para proporcionar una lectura que se pueda buscar», señaló Hildegund Müller, profesora asociada en el Departamento de Clásicos de Notre Dame. «Si se consideran los textos utilizados en este estudio —manuscritos del siglo IX— esa es una etapa temprana de la Edad Media. Es mucho tiempo antes de la imprenta. Esa es una época en la que se producía una enorme cantidad de manuscritos. Hay todo tipo de información oculta en estos manuscritos, textos no identificados que nadie ha visto antes».

«Hay una gran necesidad de avanzar en las humanidades digitales. Cuando se habla de la Edad Media y de los primeros tiempos modernos,si se quiere entender los detalles y las consecuencias de los acontecimientos históricos, hay que mirar a través del material escrito, y estos textos son lo único que tenemos. El problema puede ser aún mayor fuera del mundo occidental. Pensemos en las lenguas que están desapareciendo en culturas que están amenazadas. En primer lugar, debemos preservar estas obras, hacerlas accesibles y, en algún momento, incorporar traducciones para que formen parte de los procesos culturales que aún están en marcha, y estamos compitiendo contra el tiempo», agregó Müller.