Intelligence des données

WhereHows : A découverte de données et Lineage Portal pour LinkedIn

Actian Corporation

20 avril 2020

linkedin-wherehows

Les entreprises modernes axées sur les données accordent de plus en plus d'importance à la gestion desmétadonnées . Dans un monde où le patrimoine de données augmente rapidement et où les systèmes d'information sont de plus en plus complexes, les organisations de tous les secteurs ont compris l'importance de pouvoir découvrir, comprendre et faire confiance à leur patrimoine de données de patrimoine de données . de pouvoir découvrir, comprendre et faire confiance à leur patrimoine de données.

Que votre entreprise soit dans l'industrie du streaming , comme Spotify ou Netflix, dans l'industrie du covoiturage, comme Uber ou Lyft, ou même dans le secteur de la location comme Airbnb, les équipes chargées des données ont besoin d'être les équipes chargées des données doivent être équipées des bons outils et des bonnes solutions qui leur permettent d'innover et de produire de la valeur avec leurs données.

Dans cet article, nous nous concentrerons sur WhereHows, un projet open-source mené par l'équipe de données de LinkedIn qui fonctionne en créant un dépôt central et un portail pour les personnes, les processus et les connaissances autour des données. Avec plus de 50 000 jeux de données, 14 000 commentaires et 35 millions d'exécutions d'emplois et d'informations connexes sur la lignée, il est clair que le portail découverte de données de LinkedIn est un succès.

Statistiques clés de LinkedIn

Fondée par Reid Hoffman, Allen Blue, Konstantin Guericke, Eric Ly et Jean-Luc Vaillant en 2003 en Californie, l'entreprise a démarré très lentement. En 2007, elle est enfin devenue rentable et, en 2011, elle comptait plus de 100 millions de membres dans le monde.

En 2020, LinkedIn s'est considérablement développé :

  • Plus de 660 millions de membres de LinkedIn dans le monde, dont 206 millions d'utilisateurs actifs en Europe.
  • Plus de 80 millions d'utilisateurs sur LinkedIn Slideshare.
  • Plus de 9 milliards d'impressions de contenu.
  • 30 millions d'entreprises enregistrées dans le monde.

LinkedIn est sans conteste une application de réseau social professionnel incontournable pour les recruteurs, les spécialistes du marketing et même les professionnels de la vente. Alors, comment le géant du web fait-il pour gérer toutes ces données ?

Comment cela a commencé

Comme la plupart des entreprises disposant d'un écosystème BI mature, LinkedIn a démarré avec une équipe chargée de l'entrepôt de données, responsable de l'intégration de diverses sources d'information dans des jeux de données consolidés. Au fur et à mesure que le nombre de jeux de données, de producteurs et de consommateurs augmentait, l'équipe se sentait de plus en plus dépassée par la quantité colossale de données générées chaque jour. Voici quelques-unes des questions qu'elle se posait :

  • Qui est le propriétaire de ce flux de données ?
  • Comment ces données sont-elles arrivées jusqu'ici ?
  • Où sont les données ?
  • Quelles sont les données utilisées ?

En réponse, LinkedIn a décidé de construire un dépôt centraldépôt métadonnées pour capturer leurs métadonnées à travers tous les systèmes et les présenter sur une plateforme unique afin de simplifier la découverte de données: WhereHows.

Qu'est-ce que WhereHows ?

WhereHows s'intègre à tous les environnements de traitement des données et en extrait les métadonnées .

Il fait ensuite apparaître ces informations via deux interfaces différentes :

  1. Une application web qui permet navigation, la recherche, la visualisation des lignées, les discussions et la collaboration.
  2. Un point d'accès à l'API qui permet l'automatisation d'autres processus et applications de données.

Ce dépôt permet à LinkedIn de résoudre les problèmes liés au lignage des données, à la propriété des données, à la découverte des schémas, au mashup des métadonnées opérationnelles, au profilage des données et à la comparaison entre les clusters. En outre, ils ont mis en œuvre la détection et l'association de modèles basées sur des machines entre le glossaire d'entreprise et leurs jeux de donnéesIls ont également créé une communauté basée sur la participation et la collaboration qui leur permet de maintenir la documentation des métadonnées en encourageant les conversations et la fierté d'être propriétaire.

WhereHows se compose de trois éléments principaux :

  1. Un dépôt données qui stocke toutes les métadonnées.
  2. Un serveur web qui présente des données par le biais d'une API et d'une interface utilisateur.
  3. Un serveur dorsal qui récupère les métadonnées à partir d'autres sources d'information.

Comment fonctionne WhereHows ?

La puissance de WhereHows provient des métadonnées qu'il collecte dans l'écosystème de données de Linkedin. Il collecte les métadonnées suivantes :

  • Les métadonnées opérationnelles, telles que les emplois, les flux, etc.
  • Informations sur la lignée, qui permet de relier les emplois jeux de données entre eux.
  • Les informations cataloguées telles que l'emplacement du jeu de données, sa structure de schéma, sa propriété, sa date de création, etc.

Comment ils utilisent les métadonnées

WhereHows utilise un modèle universel qui permet aux équipes chargées des données de mieux exploiter la valeur des métadonnées, par exemple en effectuant une recherche sur les différentes plateformes en fonction des différents aspects des jeux de données.

De même, les métadonnées d'un jeu de données et les métadonnées opérationnelles d'un emploi sont deux points finaux. Les informations de lignage les relient entre elles et permettent aux équipes chargées des données de remonter d'un jeux de données à ses jobs/jeux dejeux de données en amont/aval. Si l'ensemble de l'écosystème de données est rassemblé dans des WhereHows, les équipes peuvent retracer le flux de données du début à la fin.

Comment ils collectent les métadonnées

La méthode utilisée pour collecter les métadonnées dépend de la source. Par exemple, les jeux de données Hadoop ont des tâches de scraper qui parcourent les dossiers et les fichiers HDFS, lisent les métadonnées, puis les stockent en retour.

Pour les ordonnanceurs tels qu'Azkaban, ils connectent leur dépôt backend pour obtenir les métadonnées, les agrègent et les transforment dans le format dont ils ont besoin, puis les chargent dans WhereHows. Pour les informations de lignage, ils analysent le journal d'un travail MapReduce et le journal d'exécution d'un planificateur, puis combinent ces informations pour obtenir le lignage.

Quelle est la prochaine étape pour WhereHows ?

Aujourd'hui, WhereHows est activement utilisé chez LinkedIn non seulement commedépôt métadonnées , mais aussi pour automatiser d'autres projets de données tels que la purge automatisée des données pour la conformité. En 2016, ils ont intégré les systèmes ci-dessous :

À l'avenir, les équipes de données de LinkedIn espèrent élargir la couverture de leurs métadonnées en intégrant davantage de systèmes tels que Kafka ou Samza. Elles prévoient également d'intégrer des systèmes de gestion du cycle de vie des données et de provisionnement comme Nuage ou Goblin pour enrichir les métadonnées. WhereHows n'a pas dit son dernier mot.

Sources :

logo avatar actian

À propos d'Actian Corporation

Actian permet aux entreprises de gérer et de gouverner en toute confiance les données à l'échelle, en rationalisant les environnements de données complexes et en accélérant la fourniture de données prêtes pour l'IA. L'approche d'Actian en matière d'intelligence des données combine la découverte de données, la gestion des métadonnées et la gouvernance fédérée pour permettre une utilisation plus intelligente des données et améliorer la conformité. Grâce à desFonctionnalités intuitives libre-service , les utilisateurs professionnels et techniques peuvent trouver, comprendre et faire confiance aux actifs de données dans les environnements cloud, hybrides et sur site . Actian fournit des solutions de gestion des données flexibles à 42 millions d'utilisateurs au sein de sociétés Fortune 100 et d'autres entreprises dans le monde entier, tout en maintenant un taux de satisfaction de la clientèle de 95 %.