Dos formas de extraer datos estructurados de una web

En algunas ocasiones nos encontramos con páginas que incluyen información que queremos exportar, rastrear y monitorizar de alguna forma. Cuando existe un canal RSS con las actualizaciones de dichos datos, es sencillo tenerlas bajo control con un lector como Feedly, TheOldReader o cualquiera de las muchas alternativas existentes en la web, pero en caso contrario tenemos que inventar alguna forma de seguir las actualizaciones sin necesidad de estar constantemente actualizando la página.

Hoy os presento dos opciones, una sencilla y básica, la otra extremadamente flexible, y más compleja. Empecemos por la segunda:

Feed43

feed

Conozco esta opción desde 2006, opción que poco ha cambiado con el tiempo, aunque continúa siendo tan efectiva como siempre.

Se trata de una herramienta en la que tenemos que mostrar la estructura HTML de cualquier página indicando el patrón que debe seguir para avisarnos de las actualizaciones. Si vemos que el contenido que queremos rastrear tiene un tag HTML específico o mantiene una estructura en el código que generalmente es repetida, Feed43 conseguirá crear un Feed, una dirección RSS, en cualquier página.

Las direcciones creadas pueden ser actualizadas en cualquier momento para adaptarse a una posible actualización de código.

La ventaja es que es capaz de crear un feed de prácticamente cualquier página web, la desventaja es que para hacerlo hay que conocer nociones básicas de HTML.

convextra.com

convextra

Esta segunda opción es más sencilla, no requiere conocimiento de código y no crea un canal RSS, pero permite enviar alertas cuando hay alteración del contenido que estamos rastreando.

Solo tenemos que incluir un bookmarklet y pulsarlo cuando estamos con la página web abierta. Una vez hecho eso, pulsamos en el lugar que queremos rastrear (el contenido de un blog, la lista de productos de una búsqueda en una tienda, etc.) y seleccionamos la frecuencia de actualización de las alertas.

Convextra permite exportar el contenido en csv, ideal para usarlo en algún sistema interno y analizarlo con calma.

Juan Diego Polo

Estudió Ingeniería de Telecomunicaciones en la UPC (Barcelona), trabajando como ingeniero, profesor y analista desde 1998 hasta 2005, cuando decidió emprender creando wwwhatsnew.com.

1 comentario

  1. MTT

    Hola, primero que nada ¡muchas gracias por publicar tantas cosas tan útiles! La primera opción está fuera de mi alcance por el HTML, la segunda la probé pero no aparece el botón para recibir notificaciones. Otra opción que he usado es http://blogtrottr.com, pero hay un blog que no logra reconocer y quería preguntarte si habrá otra opción. De antemano agradezco si puedes ayudarme, y te dejo saludos desde México.