LinkedIn explica el funcionamiento de Gobblin, su sistema de ingestión de datos

El equipo de LinkedIn ha dedicado un artículo en unos de sus blogs  a explicar  la arquitectura del sistema de Gobblin, su solución para la ingestión de grandes cantidades de datos.

Esta herramienta resuelve el problema que se enfrentan empresas como LinkedIn, que tienen que procesar  cientos de terabytes diarios  de diferentes tipos de datos.

Por ejemplo, en el caso de LinkedIn, datos internos con información propia del funcionamiento de la plataforma (perfiles, interacción, actividades, etc) y datos externos (Google, Twitter, etc) que abren nuevos desafíos ya que utilizan formatos y tecnologías diferentes.

Los ingenieros de LinkedIn han conseguido con Gobblin simplificar la tarea de procesar datos de manera centralizada, gracias a que han creado un marco unificado de ingestión de datos, como se ilustra en la imagen:

globbin

El equipo de LinkedIn también ha informado que, en las próximas semanas compartirán una primera versión de Gobblin y al igual que Kafka y Voldemort terminará siendo Open Source.

Para aquellos que quieran conocer en detalle el funcionamiento de Gobblin, pueden leer con detenimiento el post de Lin Qiao, en el blog de LinkedIn y dar un vistazo a su presentación creada en Slideshare.

Miriam Schuager