WhereHows : A découverte de données et Lineage Portal pour LinkedIn
Actian Corporation
20 avril 2020

Les entreprises modernes axées sur les données accordent de plus en plus d'importance à la gestion desmétadonnées . Dans un monde où le patrimoine de données augmente rapidement et où les systèmes d'information sont de plus en plus complexes, les organisations de tous les secteurs ont compris l'importance de pouvoir découvrir, comprendre et faire confiance à leur patrimoine de données de patrimoine de données . de pouvoir découvrir, comprendre et faire confiance à leur patrimoine de données.
Que votre entreprise soit dans l'industrie du streaming comme Spotify ou Netflix, dans l'industrie du covoiturage comme Uber ou Lyft, ou même dans l'industrie de la location comme Airbnb, il est essentiel que les équipes de données soient équipées des bons outils et des bonnes solutions qui leur permettent d'innover et de produire de la valeur avec leurs données. les bons outils et les bonnes solutions qui leur permettent d'innover et de produire de la valeur avec leurs données.
Dans cet article, nous nous concentrerons sur WhereHows, un projet open-source mené par l'équipe de données de LinkedIn, qui fonctionne en créant un dépôt central et un portail pour les personnes, les processus et les connaissances autour des données. Avec plus de 50 000 ensembles de données, 14 000 commentaires et 35 millions d'exécutions de tâches et d'informations connexes, il est clair que le portail de découverte de données de LinkedIn est un succès.
Statistiques clés de LinkedIn
Fondée par Reid Hoffman, Allen Blue, Konstantin Guericke, Eric Ly et Jean-Luc Vaillant en 2003 en Californie, l'entreprise a démarré très lentement. En 2007, elle est enfin devenue rentable et, en 2011, elle comptait plus de 100 millions de membres dans le monde.
À partir de 2020, LinkedIn s'est considérablement développé :
- Plus de 660 millions de membres de LinkedIn dans le monde, dont 206 millions d'utilisateurs actifs en Europe.
- Plus de 80 millions d'utilisateurs sur LinkedIn Slideshare.
- Plus de 9 milliards d'impressions de contenu.
- 30 millions d'entreprises enregistrées dans le monde.
LinkedIn est sans conteste une application de réseau social professionnel incontournable pour les recruteurs, les spécialistes du marketing et même les professionnels de la vente. Alors, comment le géant du web fait-il pour gérer toutes ces données ?
Comment tout a commencé
Comme la plupart des entreprises disposant d'un écosystème BI mature, LinkedIn a démarré avec une équipe chargée de l'entrepôt de données, responsable de l'intégration de diverses sources d'information dans des ensembles de données consolidées. Au fur et à mesure que le nombre d'ensembles de données, de producteurs et de consommateurs augmentait, l'équipe se sentait de plus en plus dépassée par la quantité colossale de données générées chaque jour. Voici quelques-unes des questions qu'elle se posait :
- Qui est le propriétaire de ce flux de données ?
- Comment ces données sont-elles arrivées jusqu'ici ?
- Où sont les données ?
- Quelles sont les données utilisées ?
En réponse, LinkedIn a décidé de construire un dépôt centraldépôt métadonnées pour capturer leurs métadonnées à travers tous les systèmes et les présenter sur une plateforme unique afin de simplifier la découverte de données: WhereHows.
Qu'est-ce que WhereHows ?
WhereHows s'intègre à tous les environnements de traitement des données et en extrait les métadonnées .
Il fait ensuite apparaître ces informations via deux interfaces différentes :
- Une application web qui permet navigation, la recherche, la visualisation des lignées, les discussions et la collaboration.
- Un point d'accès à l'API qui permet l'automatisation d'autres processus et applications de données.
Ce dépôt permet à LinkedIn de résoudre les problèmes liés au lignage des données, à la propriété des données, à la découverte des schémas, au mashup des métadonnées opérationnelles, au profilage des données et à la comparaison entre les clusters. En outre, ils ont mis en œuvre la détection et l'association de modèles basées sur des machines entre le glossaire d'entreprise et leurs ensembles de donnéesIls ont également créé une communauté basée sur la participation et la collaboration qui leur permet de maintenir la documentation des métadonnées en encourageant les conversations et la fierté d'être propriétaire.
WhereHows se compose de trois éléments principaux :
- Un dépôt données qui stocke toutes les métadonnées.
- Un serveur web qui présente des données par le biais d'une API et d'une interface utilisateur.
- Un serveur dorsal qui récupère les métadonnées à partir d'autres sources d'information.
Comment fonctionne WhereHows ?
La puissance de WhereHows provient des métadonnées qu'il collecte dans l'écosystème de données de Linkedin. Il collecte les métadonnées suivantes :
- Les métadonnées opérationnelles, telles que les emplois, les flux, etc.
- Les informations sur la lignée, qui permettent de relier les ensembles de données sur les emplois entre eux.
- Les informations cataloguées telles que l'emplacement du jeu de données, sa structure de schéma, sa propriété, sa date de création, etc.
Comment ils utilisent les métadonnées
WhereHows utilise un modèle universel qui permet aux équipes chargées des données de mieux exploiter la valeur des métadonnées, par exemple en effectuant une recherche sur les différentes plateformes en fonction des différents aspects des ensembles de données.
De même, les métadonnées d'un jeu de données et les métadonnées opérationnelles d'un travail sont deux points finaux. Les informations de lignage les relient entre elles et permettent aux équipes chargées des données de remonter d'un jeu de données/travail à ses travaux/jeux de données en amont/aval. Si l'ensemble de l'écosystème des données est rassemblé dans des WhereHows, les équipes peuvent retracer le flux de données du début à la fin.
Comment ils collectent les métadonnées
La méthode utilisée pour collecter les métadonnées dépend de la source. Par exemple, les ensembles de données Hadoop ont des tâches de scraper qui parcourent les dossiers et les fichiers HDFS, lisent les métadonnées, puis les stockent en retour.
Pour les ordonnanceurs tels qu'Azkaban, ils connectent leur dépôt backend pour obtenir les métadonnées, les agrègent et les transforment dans le format dont ils ont besoin, puis les chargent dans WhereHows. Pour les informations de lignage, ils analysent le journal d'un travail MapReduce et le journal d'exécution d'un planificateur, puis combinent ces informations pour obtenir le lignage.
Quelle est la prochaine étape pour WhereHows ?
Aujourd'hui, WhereHows est activement utilisé chez LinkedIn non seulement commedépôt métadonnées , mais aussi pour automatiser d'autres projets de données tels que la purge automatisée des données pour la conformité. En 2016, ils ont intégré les systèmes ci-dessous :
À l'avenir, les équipes de données de LinkedIn espèrent élargir la couverture de leurs métadonnées en intégrant davantage de systèmes tels que Kafka ou Samza. Elles prévoient également d'intégrer des systèmes de gestion du cycle de vie des données et de provisionnement comme Nuage ou Goblin pour enrichir les métadonnées. WhereHows n'a pas dit son dernier mot.
Sources :
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.