Hace algunos días se produjo un anuncio por parte de la Biblioteca Nacional de España (BNE) en el cual expresaron su intención de poner a disposición todo el contenido completo correspondiente a las publicaciones de dominio público de la Hemeroteca Digital, para ser descargado en formato abierto libre y reutilizable, todo esto de manera gratuita.
Es así como esta institución se dio a la tarea de ampliar su web incluyendo una nueva página en la que se mostrará al usuario un listado de los títulos de dominio público cuyo texto se encuentra disponible para ser descargado por completo, los cuales, además, son obtenidos como resultado de un proceso conocido como Reconocimiento Óptico De Caracteres (OCR por sus siglas en inglés).
En este sentido, la Hemeroteca Digital presenta miles de cabeceras de prensa de las cuales más de 2 mil pueden ser accedidas a través del dominio público.
Cada una de estas cabeceras les ha sido asignado un número que luego es puesto a disposición como un fichero descargable, estado en el cual puede ser aprovechado para ser analizado, procesado o reutilizado de acuerdo a lo expresado desde la BNE.
Dentro del extenso cumulo de datos generados y liberados por la biblioteca nacional de España se encuentran adaptaciones disponibles en formatos XML, TXT, ODS, CSV y JSON.
Al respecto de este proyecto y del alcance que pueda tener a largo plazo la BNE expresó que tienen pensado crear una actividad abierta a la colaboración. Lo toman como un primer paso para seguir experimentando y trabajando con estos datos. Creen que pueden aportar mucho en campos como el procesamiento del lenguaje natural, así como en investigación académica y, por supuesto, en desarrollo de software.