Dos formas de extraer datos estructurados de una web

En algunas ocasiones nos encontramos con páginas que incluyen información que queremos exportar, rastrear y monitorizar de alguna forma. Cuando existe un canal RSS con las actualizaciones de dichos datos, es sencillo tenerlas bajo control con un lector como Feedly, TheOldReader o cualquiera de las muchas alternativas existentes en la web, pero en caso contrario tenemos que inventar alguna forma de seguir las actualizaciones sin necesidad de estar constantemente actualizando la página.

Hoy os presento dos opciones, una sencilla y básica, la otra extremadamente flexible, y más compleja. Empecemos por la segunda:

Feed43

feed

Conozco esta opción desde 2006, opción que poco ha cambiado con el tiempo, aunque continúa siendo tan efectiva como siempre.

Se trata de una herramienta en la que tenemos que mostrar la estructura HTML de cualquier página indicando el patrón que debe seguir para avisarnos de las actualizaciones. Si vemos que el contenido que queremos rastrear tiene un tag HTML especí­fico o mantiene una estructura en el código que generalmente es repetida, Feed43 conseguirá crear un Feed, una dirección RSS, en cualquier página.

Las direcciones creadas pueden ser actualizadas en cualquier momento para adaptarse a una posible actualización de código.

La ventaja es que es capaz de crear un feed de prácticamente cualquier página web, la desventaja es que para hacerlo hay que conocer nociones básicas de HTML.
Continúa leyendo «Dos formas de extraer datos estructurados de una web»