En muchas empresas, RAG (Retrieval-Augmented Generation) se ha convertido en el atajo preferido para “conectar” documentos internos con un modelo de lenguaje: indexas archivos, creas una base vectorial y el chatbot responde con seguridad. Sobre el papel suena tan sencillo como poner etiquetas a cajas en un trastero y pedirle a alguien que te traiga “la caja de facturas”. El problema aparece cuando el trastero no son cajas, sino un manual de ingeniería lleno de tablas, notas al pie, diagramas y jerarquías visuales.
En sectores donde la precisión es irrenunciable —infraestructura, fabricación, energía, aeroespacial— el resultado suele ser decepcionante: el usuario hace una pregunta concreta y el bot contesta algo plausible, pero incorrecto. Y lo más incómodo: a veces el fallo se interpreta como “el modelo alucina”, cuando en realidad el tropiezo ocurre antes, en la cocina del sistema. Esta idea, defendida en un análisis publicado en la comunidad de VentureBeat por el arquitecto de IA Dippu Kumar Singh, apunta a un culpable menos glamuroso que el modelo de turno: el preprocesado del documento. Continúa leyendo «Cuando el RAG “tritura” tus manuales: por qué falla en PDFs técnicos y cómo arreglarlo»