búsqueda documental | WWWhat's new

El PDF es ese formato que casi nadie elige con ilusión, pero que todo el mundo usa. Sirve para enviar contratos, facturas, informes, escaneos, formularios y expedientes completos. Funciona como una caja de zapatos: lo metes todo dentro y, desde fuera, parece ordenado. El problema llega cuando intentas encontrar algo concreto sin vaciarla entera. Para una persona, abrir un documento y leerlo es rutinario. Para una IA que pretende resumir, indexar, buscar, relacionar y estructurar datos, el PDF puede convertirse en una trampa.

En una investigación publicada por The Verge, el periodista Josh Dzieza describía un caso muy ilustrativo: miles de páginas y millones de archivos en PDF publicados por el gobierno de Estados Unidos en el contexto de documentos relacionados con Jeffrey Epstein, con un OCR aplicado, pero tan deficiente que los archivos quedaban casi inutilizables para búsquedas fiables. The Verge contaba cómo Luke Igel y otras personas intentaban seguir hilos de conversación en cadenas de emails confusas dentro de visores “toscos” y sin un índice que ayudara. La situación suena familiar: tienes el archivo, pero no tienes “la llave” para sacarle partido. Continúa leyendo «La batalla silenciosa de la IA contra los PDF: por qué el formato más común sigue siendo un dolor de cabeza»