Hemos hablado en repetidas ocasiones sobre la importancia del periodismo de datos, una reciente área comunicativa enfocada en la obtención, entendimiento y difusión de diferentes conjuntos de datos luego de un debido tratamiento. Pues bien, en OpenSource.com recogen algunas herramientas de código abierto con gran utilidad para profesionales que dan sus primeros pasos prácticos en este nuevo entorno al igual que empresas que quieran ahorrar algo de dinero en software tan confiable que muestra al detalle su completo funcionamiento. Aquí están:
1. Tabula, para extraer tablas desde un PDF
Una herramienta que usan La Nación de Argentina y otros medios influyentes. Tabula, con ayuda del navegador, permite extraer el contenido de las tablas de un PDF para luego guardarlo en formato CSV o en una hoja de cálculo. Funciona muy bien excepto con archivos escaneados, eso sí, son notables sus capacidades si se tienen en cuenta las dificultades de copiar y pegar a partir de un PDF, dificultades que se complican al tratar con contenido numérico acomodado en filas y columnas.
2. LibreOffice Calc y su importador de tablas desde la web
Y hablando de hojas de cálculo, no podemos prescindir del recientemente renovado LibreOffice Calc, el «Excel» de esta flamante suite ofimática libre. Entre sus miles de funciones dispone de una característica para trabajar con datos externos de tablas importadas directamente desde una página web y hacia un libro cualquiera. Captura incluso múltiples tablas presentes en una misma página.
3. Scrapy, captura estructurada y avanzada de datos web
Otra opción para extraer datos de forma estructurada, automatizada, veloz, eficiente y directa desde sitios web. Su manejo requiere conocimientos medios en Python ya que funciona mediante línea de comandos, pero vale la pena documentarse y explotar todas sus características: tratamientos y filtros de los datos importados, compresión de contenidos, descarga múltiple de ficheros de imagen, creación de feeds para su uso desde otras aplicaciones, extensiones, mailing y mucho más.
4. OpenRefine, para limpiar y optimizar los datos capturados
Luego de capturar los datos con herramientas como las anteriores, no es complicado hacer algunas modificaciones básicas a través de una hoja de cálculo. Sin embargo, la tarea se complica cuando son miles de datos los importados listos para su optimización y tratamiento adicional. OpenRefine, antes Google Refine, es la solución a ello, una aplicación que busca duplicados, elimina caracteres equívocos, reordena, filtra elementos respondiendo a ciertas reglas, trata con coincidencias, extiende su manipulación a través de otras aplicaciones, conecta bases de datos y ejecuta otras ordenes avanzadas dentro de las celdas «refinando» así su material. Dispone de extensiones y suficiente documentación para un uso inmediato.
5. DataWrapper, para la presentación gráfica de los resultados
El último paso será trabajar en la presentación de los resultados luego de la captura y tratamiento de los datos consultados, hacer que sea sencillo para el público el entenderlos luego de resumirlos y comunicarlos de una forma adecuada. Por supuesto, un método infalible es el valerse de las características visuales de las infografías interactivas y con DataWrapper será posible aprovecharlas. Lo que logra el servicio es convertir, en solo cuatro pasos, diferentes volúmenes de datos en gráficos estadísticos: copia los datos desde tus tablas, descríbelos, elige el tipo de gráfico de entre los disponibles en las plantillas e inicia la generación de los gráficos.