Seguramente todos vosotros habéis recibido alguna vez un PDF con tablas en su interior, tablas que desearíais pasar directamente a Excel sin necesidad de escribir los datos manualmente invirtiendo una enorme cantidad de horas en el proceso.
Existen varias formas de solucionar el tema, y aquí os comento algunas:
– Usar un OCR, un sistema de reconocimiento de caracteres, para que extraiga la información del PDF y la ponga en un documento diferente. Eso puede hacerse enviando el PDF a onlineocr.net, por ejemplo. Solo tenemos que indicar el idioma del archivo original y el formato de destino deseado. No es muy eficaz con tablas, pero sí extrae los números o textos que hay dentro de cada celda, y ya sabemos que siempre es más fácil copiar contenido de un archivo que escribirlo a mano.
– Verificar algunas de las herramientas de ilovepdf. Se trata de una plataforma online, con versión instalable, que permite transformar archivos PDF. Una de ellas cambia de PDF a Excel, por lo que las tablas se llevarán perfectamente.
De todas las herramientas de transformación de PDF a Excel, la de ILovePDF es mi preferida. Hablamos con ellos hace unos meses, y nos consta que el equipo está siempre trabajando para mejorar sus funciones.
– Usar Excalibur, una aplicación de código abierto que podemos instalar en nuestro ordenador para que se realice la extracción de las tablas directamente a Excel. El código de la aplicación está en github.
Hay herramientas abiertas (Tabula, pdf-table-extract) y de código cerrado (Smallpdf, Docparser) que se utilizan ampliamente para extraer tablas de datos de archivos PDF. En este caso Excalibur usa Camelot, que es una biblioteca de Python que creó el mismo usuario para ofrecer a los usuarios un control completo sobre la extracción de tablas. Se puede instalar Excalibur usando «pip install excalibur-py» o simplemente descargar y ejecutar el ejecutable de Windows / Linux desde la página antes indicada.
Como veis, opciones no faltan, ahora solo hay que buscar la que mejor se adapte a nuestro archivo.