WWWhat's new

Dos formas de extraer datos estructurados de una web

En algunas ocasiones nos encontramos con páginas que incluyen información que queremos exportar, rastrear y monitorizar de alguna forma. Cuando existe un canal RSS con las actualizaciones de dichos datos, es sencillo tenerlas bajo control con un lector como Feedly, TheOldReader o cualquiera de las muchas alternativas existentes en la web, pero en caso contrario tenemos que inventar alguna forma de seguir las actualizaciones sin necesidad de estar constantemente actualizando la página.

Hoy os presento dos opciones, una sencilla y básica, la otra extremadamente flexible, y más compleja. Empecemos por la segunda:

Feed43

Conozco esta opción desde 2006, opción que poco ha cambiado con el tiempo, aunque continúa siendo tan efectiva como siempre.

Se trata de una herramienta en la que tenemos que mostrar la estructura HTML de cualquier página indicando el patrón que debe seguir para avisarnos de las actualizaciones. Si vemos que el contenido que queremos rastrear tiene un tag HTML especí­fico o mantiene una estructura en el código que generalmente es repetida, Feed43 conseguirá crear un Feed, una dirección RSS, en cualquier página.

Las direcciones creadas pueden ser actualizadas en cualquier momento para adaptarse a una posible actualización de código.

La ventaja es que es capaz de crear un feed de prácticamente cualquier página web, la desventaja es que para hacerlo hay que conocer nociones básicas de HTML.

convextra.com

Esta segunda opción es más sencilla, no requiere conocimiento de código y no crea un canal RSS, pero permite enviar alertas cuando hay alteración del contenido que estamos rastreando.

Solo tenemos que incluir un bookmarklet y pulsarlo cuando estamos con la página web abierta. Una vez hecho eso, pulsamos en el lugar que queremos rastrear (el contenido de un blog, la lista de productos de una búsqueda en una tienda, etc.) y seleccionamos la frecuencia de actualización de las alertas.

Convextra permite exportar el contenido en csv, ideal para usarlo en algún sistema interno y analizarlo con calma.

Salir de la versión móvil