Presentan sistema para validar información extraída de la web en estudios de marketing

En investigaciones de marketing, así como también en estudios de otras categorías, se acude a la técnica del web scraping como método de recolección de información. Básicamente, se trata de la utilización de un software para extraer lotes de datos de la web, bajo ciertos parámetros.

En concordancia con los tiempos que corren, investigadores de la Universidad Erasmus de Róterdam, la Universidad de Tilburg, INSEAD y la Universidad de Oxford publicaron una propuesta de marco metodológico, centrada en mejorar la validez de los datos web, ajustándose a los desafíos legales en torno a esta tarea.

Nueva metodología para validar datos extraídos mediante web scraping

Aunque en la mayor parte de los casos puede estar permitido recopilar información de sitios disponibles públicamente, los investigadores de todas formas deben tener cuidado con la manera en que diseñan su software de extracción.

Recopilar información de perfiles de usuarios disponibles públicamente puede generar problemas de privacidad en algunas jurisdicciones, razón que insta a los investigadores a anonimizar sus datos durante la recopilación.

Considerando que la web es una importante fuente de información para los estudios de mercado en la actualidad, los investigadores necesitan asegurarse acerca de la validez de los conjuntos de datos extraídos. Este equipo de investigación desarrolló un marco metodológico novedoso que destaca cómo abordar los problemas de validez requiere la consideración conjunta de cuestiones técnicas y legales/éticas propias de cada territorio.

Los autores, en conversación con la American Marketing Association, señalaron que su marco metodológico “cubre el amplio espectro de problemas de validez que surgen a lo largo de las tres etapas de la recopilación automática de datos web para uso académico: selección de fuentes de datos, diseño de la recopilación de datos y extracción de datos. Al discutir el marco metodológico , ofrecemos un ejemplo de marketing estilizado a modo de ilustración. También brindamos recomendaciones para abordar los desafíos que enfrentan los investigadores durante la recopilación de datos web a través del web scraping y las API».

Comprender la riqueza y la versatilidad de los datos web es un conocimiento sumamente valioso para los académicos que sienten curiosidad por integrarlos en sus programas de investigación. El artículo que documenta este estudio, proporciona además una revisión sistemática de más de 300 artículos que utilizan datos web publicados en las cinco principales revistas de marketing. Basándose en esta revisión, los investigadores demostraron cómo los datos web han tomado terreno en el diseño de estrategias de marketing.

Los investigadores señalaron también que utilizan su marco metodológico y tipología “para descubrir ‘campos de oro’ nuevos y subexplotados asociados con los datos web. Buscamos desmitificar el uso de web scraping y API y, por lo tanto, facilitar una adopción más amplia de datos web en toda la disciplina de marketing. Nuestra sección de investigación futura destaca vías novedosas y creativas de uso de datos web que incluyen la exploración de fuentes infrautilizadas, la creación de conjuntos de datos ricos en múltiples fuentes y la explotación total del potencial de las API más allá de la extracción de datos».

En el sitio web de este proyecto, es posible encontrar bastante material de interés para personas dedicadas a la labor investigativa. Junto a la base de datos desarrollada para este estudio, también se puede acceder a recursos adicionales y tutoriales para la recopilación de datos mediante el uso de APIs y web scraping.