Cómo recibir por email la actualización de cualquier página web

Publicado el

Aunque para la mayorí­a de vosotros el uso de lectores de rss sea algo tan común como respirar, para la gran mayorí­a del mundo es un gran desconocido, usando aún el viejo sistema de newsletters o del F5, lo que es aún peor…

Lo que quiero hacer en este artí­culo es mostrar una técnica que llevo bastante tiempo utilizando para obtener actualizaciones de ciertas páginas web sin necesidad de ir a buscarla, usando varias herramientas que ya he comentado en wwwhatsnew.com de forma independiente.

Lo primero que vamos a hacer es plantear un problema, mostrando una posible solución en seguida.

Problema

Un grupo de abogados en Brasil tiene que acceder cada dí­a a una página del Tribunal del estado de Paraiba para ver si hay actualizaciones en un proceso judicial. Después de entrar en la página se realiza una búsqueda por número de proceso, cliente o palabra y se obtiene una lista de los archivos pdf que contienen los datos buscados.

La página es www.tjpb.jus.br. Al realizar la búsqueda obtenemos la url personalizada con el término deseado:

[…] servicos/diario_justica?p_busca=2008 […]

Ya tenemos la url que queremos espiar automáticamente, ahora tenemos que buscar una forma de obtener las actualizaciones y enviarlas por correo electrónico (imaginemos que los abogados no saben nada sobre RSS).

Solución

Usando el servicio ofrecido por Feed43, vamos a configurarlo para generar una dirección RSS con las actualizaciones de la página en cuestión. Después usaremos otro servicio para enviar el rss por email.

Lo primero que tenemos que hacer es encontrar una repetición en el código fuente de la página buscada para que Feed43 pueda detectar nuevos registros. Si buscamos en el html generado por la búsqueda, vemos que los registros (pdfs) se guardan en una tabla con la siguiente estructura:

Una vez tenemos estos datos es relativamente simple configurar Feed43.

Paso 1: indicar la url de la cual queremos extraer los datos.
Paso 2: Indicar el origen y final del código fuente que debe ser revisado y determinar los elementos que se repiten:

El sí­mbolo {%} lo usamos para indicar que es código que queremos recuperar y el sí­mbolo {*} para indicar que es código que queremos ignorar.

Una vez hecho esto, tenemos que crear el feed RSS con los datos extraí­dos. Cada vez que usemos el sí­mbolo {%} hará referencia a un dato, de forma que podemos construir un feed de la siguiente forma:

Con eso tendremos un feed que, en este caso, muestra el tí­tulo (fecha) del proceso y el enlace para el pdf resultado de la búsqueda.

Ya tenemos el feed, ahora sólo tenemos que encontrar una forma para que sea enviada por email cada actualización del mismo. Para eso podemos usar servicios como el facilí­simo feedmyinbox.com, que nos pide la dirección rss y el email.

Espero que os haya sido útil. Aunque Feed43 es algo difí­cil al principio, se coge el truco rápido.

Comparte en:

7 comentarios en “Cómo recibir por email la actualización de cualquier página web

  1. Por favor, explique en algún artí­culo como recibir actualizaciones de una página web en el correo electrónico de una página web que no tenga servicio de RSS.Y hágalo paso a paso, para los que no sabemos HTML.Gracias.