Un escáner de documentos que permite extraer tablas y exportarlas a Excel

Publicado el

Docsumo

Las herramientas para escanear documentos y extraer textos de ellos no son algo nuevo. La tecnología de reconocimiento óptico de caracteres (OCR) se puede encontrar en software para casi cualquier plataforma, incluyendo plataformas web.

Lo interesante con esto es cuando irrumpen en el medio opciones que refrescan la propuesta con algo novedoso y asequible. Este es el caso de Docsumo.

Herramienta de escaneo de nivel empresarial, disponible gratis

Docsumo es una startup de Bombay, India, que desde hace dos años ofrece soluciones empresariales para la digitalización de tareas administrativas, implementando sistemas de automatización del procesamiento de documentos, para facilitar su gestión y análisis.

Como suelen funcionar las cosas bajo este modelo, originalmente las prestaciones de Docsumo se ofrecían como servicios de pago. Aunque aquello se mantiene, durante el último tiempo algunas herramientas fueron liberadas para su uso gratuito.

Una de ellas es Extract Tables, que permite capturar tablas y reconocer los binomios clave-valor a partir de imágenes escaneadas o archivos PDF. Para obtener resultados más precisos, puedes entrenar el algoritmo, aportando algunas muestras para guiarlo. Igualmente, tras escanear y antes de exportar, puedes verificar manualmente los datos y corregirlos si es necesario.

Si necesitas exportar los datos en formato JSON, puedes configurar reglas para que el documento exportado sea válido para trabajarlo con alguna API en particular. También, puedes exportar la tabla escaneada en formato XLSX, para editarla en algún procesador de hojas de cálculo. Otras dos opciones son en formato de texto plano (TXT) y una copia de la imagen original.

Aunque es de acceso gratuito, esta herramienta limita su oferta a 20 documentos por día.

Esta utilidad, liberada gratuitamente hace poco tiempo, llega como complemento para otras herramientas de similar categoría que también se ofrecen gratis, como una herramienta OCR web de alta precisión y un convertidor de PDF a Excel, con menor parafernalia que la función antes reseñada.

Por lo general, las tablas son una debilidad de las aplicaciones de reconocimiento de caracteres. Las más sencillas de esta categoría, únicamente se limitan a reconocer el texto en una imagen y convertirlo en texto editable, que usualmente queda desordenado. Aunque otras aplicaciones logran este mismo cometido con éxito, incluyendo la versión móvil de Microsoft Excel, el valor agregado es la posibilidad de exportar datos de manera automatizada a través de su API, tal como se describe en la documentación de este servicio.

Comparte en: