Para investigadores académicos en el campo del aprendizaje de máquinas, he aquí un regalo de Yahoo: 13.5 TB de datos anónimos de usuario conseguidos de quienes navegan en sus sitios de noticias temáticos.
Es información de más de 20 millones de usuarios recopilada durante cuatro meses (febrero a mayo de 2015) de sitios como Yahoo Deportes, Yahoo Finance y Yahoo Noticias, e incluye datos de interacción en cada portal junto a realizaciones de variables demográficas relevantes aunque no tan detalladas como para identificar personas específicas: rango de edad, género y datos de localización geográfica general.
Comenta la directora de investigación en Personalization Science de Yahoo Labs, Suju Rajan, que se trata de la colección más grande de datos hasta ahora compartida, y ya se puede solicitar en el programa de Yahoo Webscope. Este último es un espacio en el que se comparten datasets de enorme tamaño relacionados con la web: datos de publicidad y mercadeo, sociales, de lenguaje y de imágenes, entre otros.
La idea es impulsar los trabajos académicos en Inteligencia Artificial, una vez más, en el área de machine learning, de tal manera que se pueda avanzar en temas como rankings de búsqueda, publicidad computacional, recomendaciones inteligentes de contenido, minería de datos de series temporales, aprendizaje de máquinas a gran escala y personalización de productos, en general.
En fin, ya se puede solicitar la información a través de este enlace en Yahoo Webscope. Hace falta indicar que se pertenece a una Institución Académica, por ejemplo, mediante una cuenta de email universitaria, además de señalar en lo que se piensa ocupar la información.
Más información: Blog oficial de Yahoo