Intelligence des données

WhereHows : A découverte de données et Lineage Portal pour LinkedIn

Actian Corporation

20 avril 2020

linkedin-wherehows

Les entreprises modernes axées sur les données accordent de plus en plus d'importance à la gestion desmétadonnées . Dans un monde où le patrimoine de données augmente rapidement et où les systèmes d'information sont de plus en plus complexes, les organisations de tous les secteurs ont compris l'importance de pouvoir découvrir, comprendre et faire confiance à leur patrimoine de données de patrimoine de données . de pouvoir découvrir, comprendre et faire confiance à leur patrimoine de données.

Que votre entreprise soit dans l'industrie du streaming , comme Spotify ou Netflix, dans l'industrie du covoiturage, comme Uber ou Lyft, ou même dans le secteur de la location comme Airbnb, les équipes chargées des données ont besoin d'être les équipes chargées des données doivent être équipées des bons outils et des bonnes solutions qui leur permettent d'innover et de produire de la valeur avec leurs données.

Dans cet article, nous nous concentrerons sur WhereHows, un projet open-source mené par l'équipe de données de LinkedIn qui fonctionne en créant un dépôt central et un portail pour les personnes, les processus et les connaissances autour des données. Avec plus de 50 000 ensembles de données, 14 000 commentaires et 35 millions d'exécutions de tâches et d'informations connexes, il est clair que le portail de découverte de données de LinkedIn est un succès.

Statistiques clés de LinkedIn

Fondée par Reid Hoffman, Allen Blue, Konstantin Guericke, Eric Ly et Jean-Luc Vaillant en 2003 en Californie, l'entreprise a démarré très lentement. En 2007, elle est enfin devenue rentable et, en 2011, elle comptait plus de 100 millions de membres dans le monde.

En 2020, LinkedIn s'est considérablement développé :

  • Plus de 660 millions de membres de LinkedIn dans le monde, dont 206 millions d'utilisateurs actifs en Europe.
  • Plus de 80 millions d'utilisateurs sur LinkedIn Slideshare.
  • Plus de 9 milliards d'impressions de contenu.
  • 30 millions d'entreprises enregistrées dans le monde.

LinkedIn est sans conteste une application de réseau social professionnel incontournable pour les recruteurs, les spécialistes du marketing et même les professionnels de la vente. Alors, comment le géant du web fait-il pour gérer toutes ces données ?

Comment cela a commencé

Comme la plupart des entreprises disposant d'un écosystème BI mature, LinkedIn a démarré avec une équipe chargée de l'entrepôt de données, responsable de l'intégration de diverses sources d'information dans des ensembles de données consolidées. Au fur et à mesure que le nombre d'ensembles de données, de producteurs et de consommateurs augmentait, l'équipe se sentait de plus en plus dépassée par la quantité colossale de données générées chaque jour. Voici quelques-unes des questions qu'elle se posait :

  • Qui est le propriétaire de ce flux de données ?
  • Comment ces données sont-elles arrivées jusqu'ici ?
  • Où sont les données ?
  • Quelles sont les données utilisées ?

En réponse, LinkedIn a décidé de construire un dépôt centraldépôt métadonnées pour capturer leurs métadonnées à travers tous les systèmes et les présenter sur une plateforme unique afin de simplifier la découverte de données: WhereHows.

Qu'est-ce que WhereHows ?

WhereHows s'intègre à tous les environnements de traitement des données et en extrait les métadonnées .

Il fait ensuite apparaître ces informations via deux interfaces différentes :

  1. Une application web qui permet navigation, la recherche, la visualisation des lignées, les discussions et la collaboration.
  2. Un point d'accès à l'API qui permet l'automatisation d'autres processus et applications de données.

Ce dépôt permet à LinkedIn de résoudre les problèmes liés au lignage des données, à la propriété des données, à la découverte des schémas, au mashup des métadonnées opérationnelles, au profilage des données et à la comparaison entre les clusters. En outre, ils ont mis en œuvre la détection et l'association de modèles basées sur des machines entre le glossaire d'entreprise et leurs ensembles de donnéesIls ont également créé une communauté basée sur la participation et la collaboration qui leur permet de maintenir la documentation des métadonnées en encourageant les conversations et la fierté d'être propriétaire.

WhereHows se compose de trois éléments principaux :

  1. Un dépôt données qui stocke toutes les métadonnées.
  2. Un serveur web qui présente des données par le biais d'une API et d'une interface utilisateur.
  3. Un serveur dorsal qui récupère les métadonnées à partir d'autres sources d'information.

Comment fonctionne WhereHows ?

La puissance de WhereHows provient des métadonnées qu'il collecte dans l'écosystème de données de Linkedin. Il collecte les métadonnées suivantes :

  • Les métadonnées opérationnelles, telles que les emplois, les flux, etc.
  • Les informations sur la lignée, qui permettent de relier les ensembles de données sur les emplois entre eux.
  • Les informations cataloguées telles que l'emplacement du jeu de données, sa structure de schéma, sa propriété, sa date de création, etc.

Comment ils utilisent les métadonnées

WhereHows utilise un modèle universel qui permet aux équipes chargées des données de mieux exploiter la valeur des métadonnées, par exemple en effectuant une recherche sur les différentes plateformes en fonction des différents aspects des ensembles de données.

De même, les métadonnées d'un jeu de données et les métadonnées opérationnelles d'un travail sont deux points finaux. Les informations de lignage les relient entre elles et permettent aux équipes chargées des données de remonter d'un jeu de données/travail à ses travaux/jeux de données en amont/aval. Si l'ensemble de l'écosystème des données est rassemblé dans des WhereHows, les équipes peuvent retracer le flux de données du début à la fin.

Comment ils collectent les métadonnées

La méthode utilisée pour collecter les métadonnées dépend de la source. Par exemple, les ensembles de données Hadoop ont des tâches de scraper qui parcourent les dossiers et les fichiers HDFS, lisent les métadonnées, puis les stockent en retour.

Pour les ordonnanceurs tels qu'Azkaban, ils connectent leur dépôt backend pour obtenir les métadonnées, les agrègent et les transforment dans le format dont ils ont besoin, puis les chargent dans WhereHows. Pour les informations de lignage, ils analysent le journal d'un travail MapReduce et le journal d'exécution d'un planificateur, puis combinent ces informations pour obtenir le lignage.

Quelle est la prochaine étape pour WhereHows ?

Aujourd'hui, WhereHows est activement utilisé chez LinkedIn non seulement commedépôt métadonnées , mais aussi pour automatiser d'autres projets de données tels que la purge automatisée des données pour la conformité. En 2016, ils ont intégré les systèmes ci-dessous :

À l'avenir, les équipes de données de LinkedIn espèrent élargir la couverture de leurs métadonnées en intégrant davantage de systèmes tels que Kafka ou Samza. Elles prévoient également d'intégrer des systèmes de gestion du cycle de vie des données et de provisionnement comme Nuage ou Goblin pour enrichir les métadonnées. WhereHows n'a pas dit son dernier mot.

Sources :

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous couvrons des sujets allant de l'ingestion de données en temps réel à l'analyse pilotée par l'IA.