Import.io lanza Data Factory para simplificar la extracción de datos desde sitios web

data Factory

A finales del pasado mes de Agosto, os presentamos a la plataforma Import.io, la cual nos posibilita la creación de una tabla de datos o de una API a través de los diferentes elementos de las páginas web que nos interesan, sin necesidad de codificación. Pocas semanas después, también nos hicimos eco de su lanzamiento como beta pública, implicando un nuevo rediseño del servicio y la incorporación de nuevas caracterí­sticas. Aprovechando el marco del TechCrunch Disrupt Europe, en Berlí­n, Import.io anuncia el lanzamiento del nuevo servicio Data Factory con el objetivo de simplificar la conversión de sitios web en APIs para la extracción de datos, reduciendo el número de clicks a realizar.

Desde su blog oficial nos explican que su nuevo servicio funciona con una extensión para Chrome, el cual una vez instalado, nos posibilita acceder a las fuentes de datos y a las APIs de su propia librerí­a. Navegando por la web, como hacemos habitualmente, nos encontraremos con uno de los dos escenarios:

– Si estamos ante una página de la cual ya se han extraí­do datos, veremos un pequeño número junto al icono, lo que nos permitirá obtener un conjunto de datos desde la página. También desde el conjunto de datos podemos elegir la posibilidad de añadir más datos, seleccionando las fuentes desde las que extraer la información que queramos dentro de una lista completa.

– En caso de que estemos ante una página que nos interesa pero sobre la cual todaví­a no se ha extraí­do dato alguno, podemos solicitar a Data Factory la extracción de la información que necesitamos, indicando los datos que deseamos obtener, recibiéndolos dentro de las 24 horas siguientes.

De todos modos, Import.io dispone de un completo tutorial que nos permitirá entender mejor el funcionamiento de este nuevo servicio, el cual ya se ofrece junto con su servicio habitual de manera gratuita. En este sentido, están planteando ofrecer servicios adicionales de pago sobre las APIs, o incluso establecer lí­mites a las cuentas gratuitas. Actualmente disponen de 8.000 usuarios activos, los cuales han creado alrededor de 15.000 APIs.

Import io – Para extraer datos estructurados de cualquier sitio web

import

Hay buscadores de inmuebles, de coches, de artí­culos usados, listas de artí­culos con datos estructurados.. a menudo que navegamos por la web encontramos más y más sitios que generan información ordenada de los más diversos temas, datos que podrí­amos querer extraer para crear una base de datos local y analizarla con calma.

Serí­a interesante, por ejemplo, extraer los precios de todos los artí­culos que cumplan una determinada condición en una tienda online, o crear un informe con datos que llegan desde diferentes sitios de forma frecuente.

Lo que hace import.io es precisamente facilitar esa extracción. Se trata de un programa, para Windows, Linux y Mac, que puede rastrear cualquier url (una o varias) para encontrar patrones que pueda usar para obtener datos. A medida que usamos el sistema vamos definiendo la zona de cada web que nos interesa, así­ como los datos que queremos construir, permitiendo crear un enlace entre nuestro import.io y la fuente de los datos, enlace que se actualizará cuando la fuente de información cambie.

En el ví­deo inferior podéis ver un ejemplo de su uso, donde dejan claro que el sistema aún está en desarrollo y que, aunque aún no han definido un modelo de negocio, siempre existirá una versión gratuita.
Continúa leyendo «Import io – Para extraer datos estructurados de cualquier sitio web»

Free PDF Image Extractor nos permitirá extraer las imágenes de archivos PDF de una sola vez

Hay situaciones en las que necesitaremos extraer las imágenes de los archivos PDF que obtenemos por diferentes ví­as o elijamos de los que tenemos guardados en local. Una buena opción la tenemos en la aplicación Free PDF Image Extractor, disponible para todas las versiones de Windows, desde Windows 2000 en adelante, que nos permitirá ahorrarnos tiempo en la extracción de todas las imágenes de los archivos PDF.

Lo mejor de todo es que además de incluir archivos PDF sueltos a nuestra lista, podemos incluir directorios completos, incluso con subdirectorios, para generarnos la lista de archivos en la que extraerá las imágenes. Podemos extraer las imágenes de todos los archivos listados o sólo de aquello que seleccionemos, mediante la correspondiente opción que tenemos en la barra de utilidades.

Una vez que hayamos extraí­do las imágenes, siendo éstas generadas en formato PPM, que podemos visualizar a través del conocido visualizador de imágenes Irfanview, podemos acceder a ellas a través de la carpeta de salida. Cada archivo PDF será representado por un directorio que contendrá todas las imágenes extraí­das.

La aplicación la podemos descargar de forma gratuita a través de la web de la compañí­a desarrolladora.

Enlace: Free PDF Image Extractor | Ví­a: AddictiveTips

Feeds API – obtén un feed RSS con los contenidos completos de cualquier sitio web


A estas alturas, son ya mayorí­a las páginas que disponen de su propio canal RSS, aunque en los casos en los que no se disponga o bien si dispongan pero muestren parcialmente los contenidos, Feeds API es un servicio que nos permite obtener un nuevo canal RSS con los contenidos completos de cualquier sitio web.
Basta simplemente con rellenar el formulario que tenemos en su página para obtener una URL que introduciremos en el medio donde queramos acceder a los contenidos, como un lector de canales RSS, y además, disponemos de un bookmarklet por si deseamos obtener un feed nuevo de la página por la cual estamos navegando.
La labor de Feeds API en todo caso es la de extraer sólo el contenido de los sitios web, filtrando otros elementos de los mismos.

Imgr, conociendo el valor hexadecimal de los colores de una imagen

Para todos aquellos diseñadores que en algún momento quieran combinar los colores de sus diseños con los colores predominantes de una imagen, si tienen a mano un navegador web, pueden irse a Imgr, un servicio que les permitirá obtener una paleta de colores en función de la imagen subida.

Simplemente deberán de escoger la imagen, y que ésta está en jpg, gif o png, para poder subirlas y, ajustando unos parámetros, obtendrán una paleta de colores, donde básicamente podrán posicionarse en un tono de color para que le salga un tooltip indicando el número hexadecimal de ese color. Además, podrán bajarse una muestra que les permitirán tenerlo en sus ordenadores para poder usarlos más adelante en lugar de las imágenes.

Wozaik – extrayendo contenidos de sitios web


Se nos puede presentar casos en donde sólo necesitemos extraer parte de los contenidos de cualquier sitio web, sobrándonos el resto de la página, que si lo añadimos a algunos de los servicios de marcadores sociales habituales, tarde o temprano se nos olvidará los motivos que nos hizo añadirlas. Y para extraer contenidos de cualquier sitio web tenemos a Wozaik.

El funcionamiento, como no podí­a ser de otra manera, se basa en un bookmarklet que añadiremos a la barra de ví­nculos de nuestro navegador habitual, y cada vez que lo presionemos, nos permitirá indicar el área del contenido que queremos guardar, definiendo una serie de etiquetas a modo de listas. Estos contenidos extraí­dos ya lo tendremos en nuestro panel junto a otros contenidos, que podemos organizar mediante columnas, y que además, dispondremos de diferentes ví­as para poder compartirlos con otros usuarios.

El uso de este servicio es completamente gratuito, disponible en varios idiomas, incluido el español, aunque la pega que le podemos poner es que no contamos con las suficientes funciones para personalizar nuestro entorno a nuestro gusto, además de no poder eliminar columnas creadas, solo modificar el área que ocupan.