El equipo de LinkedIn ha dedicado un artículo en unos de sus blogs a explicar la arquitectura del sistema de Gobblin, su solución para la ingestión de grandes cantidades de datos.
Esta herramienta resuelve el problema que se enfrentan empresas como LinkedIn, que tienen que procesar cientos de terabytes diarios de diferentes tipos de datos.
Por ejemplo, en el caso de LinkedIn, datos internos con información propia del funcionamiento de la plataforma (perfiles, interacción, actividades, etc) y datos externos (Google, Twitter, etc) que abren nuevos desafíos ya que utilizan formatos y tecnologías diferentes.
Los ingenieros de LinkedIn han conseguido con Gobblin simplificar la tarea de procesar datos de manera centralizada, gracias a que han creado un marco unificado de ingestión de datos, como se ilustra en la imagen:
El equipo de LinkedIn también ha informado que, en las próximas semanas compartirán una primera versión de Gobblin y al igual que Kafka y Voldemort terminará siendo Open Source.
Para aquellos que quieran conocer en detalle el funcionamiento de Gobblin, pueden leer con detenimiento el post de Lin Qiao, en el blog de LinkedIn y dar un vistazo a su presentación creada en Slideshare.