Ya sabemos que hay varias plataformas que nos ayudan a chatear con archivos PDF. ChatGPT es una de ellas, solo tenemos que subir el archivo deseado y esperar a que la IA de OpenAI entienda su contenido.
La pregunta ahora es ¿cómo puedo automatizar este proceso? ¿cómo puedo leer de forma automática un PDF que recibo por email, o que se guarda en una carpeta, para que una IA lo lea y lo transforme en algo estructurado?
Recientemente me encontré con esa pregunta en un proyecto que pretendía leer archivos PDF de facturas para extraer la información de forma automática e inteligente y guardarlos en la base de datos adecuada. Imaginad la utilidad del tema: creamos un programa que recoja las facturas del email, que las envíe a una Inteligencia Artificial para que extraiga de forma estructurada el contenido y enviamos cada campo correspondiente al programa que gestiona las facturas.
Si lo intentamos de forma tradicional, entrando en el archivo en búsqueda de información, nos encontraremos con que cada factura tiene un formato diferente, y como no hay inteligencia para saber si lo que está leyendo es el proveedor o el cliente, el proyecto fracasará. Si lo enviamos a una IA como ChatGPT u otra, tendremos más probabilidad de éxito, ya que saben entender el contenido.
El caso es que para hacer algo así necesitamos una API que sea capaz de entrar en un PDF, y la API de GPT de momento no lo hace. Es por eso que os dejo aquí con algunas opciones:
- Usar la API de ChatPDF. ChatPDF es una plataforma de IA que nos permite chatear con archivos PDF, y cuenta con una API de uso gratuito hasta 500 mensajes y 5000 págiunas por mes. Podemos usar esta herramienta para entrar en los PDF adjuntos y extraer la información con prompts específicos.
- ocr.space. Una API, con opción gratuita, que permite extraer el contenido de los archivos y devolver un JSON que, además del texto, muestra la posición, siendo ideal para entender mejor cómo se posiciona el contenido dentro.
- La API de www.convertapi.com/pdf-to-txt, que nos permite entrar en un archivo PDF y convertirlo en texto. Una vez lo tenemos en texto, podemos enviarlo a la API de ChatGPT para que lo procese y lo entienda.
- La API de desarrolladores de IlovePDF: mi plataforma preferida para gestionar PDFs cuenta con una sección para desarrolladores, y en ella podemos leer información sobre la API para trabajar con archivos PDF, por lo que tendremos que jugar con ella para transformar el archivo PDF en algo que la API de GPT pueda entender.
Como veis, opciones hay. De hecho, si buscáis APIs que transformen PDF en texto, veréis que hay muchas en el mercado, por lo que os dejo las tareas de casa para que elijáis la que mejor se adapte a vuestro proyecto.