métadonnées à travers le regard des géants du web
Actian Corporation
17 mars 2020

L'analyse du cycle de vie des données est un élément de la gestion des données que les entreprises ont encore du mal à mettre en œuvre.
Des organisations à la pointe de l'innovation en matière de données, telles que Uber, LinkedIn, Netflix, Airbnb et Lyft, ont également compris la valeur des métadonnées face à l'ampleur de ce défi.
Ils ont donc développé une stratégie de gestion des métadonnées en utilisant des plateformes dédiées. Souvent développées sur mesure, elles facilitent l'ingestion de données, l'indexation, la recherche, l'annotation et la découverte afin de maintenir des ensembles de données de haute qualité.
Les exemples suivants mettent en évidence une constante commune : la difficulté, accrue par le volume et la variété, de transformer les données d'entreprise en connaissances exploitables.
Voyons l'analyse et le contexte de ces géants du web :
Uber
Chaque interaction sur la plateforme d'Uber, de ses services de covoiturage à ses livraisons de nourriture, est guidée par des données. Grâce à l'analyse de ces données, les utilisateur bénéficient d'expériences plus fiables et plus pertinentes.
Les chiffres clés d'Uber :
- Des milliers de milliards de messages Kafka par jour.
- Des centaines de pétaoctets de données dans HDFS dans les centres de données.
- Des millions de requêtes analytiques par semaine.
Cependant, le volume de données généré ne suffit pas à lui seul à exploiter les informations qu'il représente ; pour être utilisées de manière efficace et efficiente, les données ont besoin d'un contexte plus large afin de prendre des décisions commerciales optimales.
Pour fournir des informations supplémentaires, Uber a donc développé "Databook", la plateforme interne de l'entreprise qui recueille et gère les métadonnées sur des ensembles de données internes afin de transformer les données en connaissances.
Databook est conçu pour permettre aux employés d'Uber d'explorer, de découvrir et d'utiliser efficacement les données d'Uber. Databook donne un contexte à ces données (leur signification, leur qualité, etc.) et veille à ce qu'elles soient conservées dans sa plateforme pour les milliers d'employés qui souhaitent les analyser. En bref, les métadonnées de Databook permettent aux responsables des données de passer de la visualisation de données brutes à des connaissances exploitables.
Dans l'article Databook : Turning Big Data into Knowledge with métadonnées at Uber, l'article conclut que l'un des plus grands défis pour Databook a été de passer des mises à jour manuelles desdépôt métadonnées à l'automatisation.
Airbnb
Lors d'une conférence en mai 2017, John Bodley, Data Engineer chez AirBnB, a exposé les nouveaux problèmes liés à la croissance de l'entreprise : un paysage confus et non unifié qui ne permettait pas d'accéder à des informations de plus en plus importantes.
Que pouvons-nous faire de toutes ces données collectées quotidiennement ? Comment les transformer en atouts pour tous les employés d'Airbnb ?
Une équipe dédiée s'est attelée au développement d'un outil permettant de démocratiser l'accès aux données au sein de l'entreprise. Leur travail s'est appuyé à la fois sur les connaissances des analystes et leur capacité à comprendre les points critiques, et sur celles des ingénieurs, qui ont pu apporter une vision plus technique. Au cœur du projet, des interviews d'employés sur leurs problématiques ont été menées.
Il ressort de cette enquête une difficulté à trouver les informations dont les employés ont besoin pour travailler, et une approche encore trop tribale du partage et de la conservation de l'information.
Pour répondre à ces défis, AirBnB a créé Data Portal, une plateforme de gestion des métadonnées . Data Portal centralise et partage ces informations via cette plateforme libre-service .
Lyft
Lyft est un service de covoiturage et le principal concurrent d'Uber sur le marché nord-américain.
L'entreprise a constaté qu'elle ne fournissait pas efficacement l'accès aux données pour ses profils analytiques. Ses réflexions se sont concentrées sur la mise à disposition de la connaissance des données afin d'optimiser ses processus. En quelques mois, leur objectif de créer une interface de recherche de données a présenté ces deux défis majeurs :
- Productivité - Qu'il s'agisse de créer un nouveau modèle, d'instrumenter une nouvelle métrique ou d'effectuer une analyse ad hoc, comment Lyft peut-il utiliser ces données de la manière la plus productive et la plus efficace possible ?
- Conformité - Lors de la collecte de données sur les utilisateurs d'une organisation, comment Lyft peut-elle se conformer aux exigences réglementaires croissantes et maintenir la confiance de ses utilisateurs ?
Dans son article Amundsen - Lyft's découverte de données & métadonnées engine, Lyft affirme que la clé ne réside pas dans les données, mais dans les métadonnées.
Netflix
En tant que leader mondial du streaming vidéo, l'exploitation des données chez Netflix est, bien entendu, un axe stratégique majeur.
Compte tenu de la diversité de ses sources de données, la plateforme vidéo souhaitait offrir un moyen de fédérer et d'interagir avec ces actifs à partir d'un seul outil. Cette recherche de solution a abouti à Metacat.
Cet outil agit comme une couche d'accès aux données et métadonnées provenant des sources de données Netflix. Il permet à ses utilisateurs d'accéder aux données de n'importe quel système de stockage grâce à trois fonctions différentes :
- Ajout d'entreprises métadonnées: Les métadonnées commerciales peuvent être ajoutées manuellement ou utilisateur l'utilisateur via Metacat.
- découverte de données: L'outil publie les schémas et les métadonnées métier définis par ses utilisateurs dans Elasticsearch, facilitant ainsi la recherche plein texte d'informations dans les sources de données.
- Notification de modification des données et audit: Metacat enregistre et notifie toutes les modifications apportées aux métadonnées des systèmes de stockage.
Dans son article de blog, "Metacat : Making Big Data Discoverable and Meaningful", chez Netflix, l'entreprise confirme qu'elle est loin d'avoir fini de travailler sur sa solution.
Il reste encore quelques fonctionnalités sur lesquelles ils doivent travailler pour améliorer l'expérience de l'entreposage de données :
- Schema et métadonnées visioning pour fournir l'historique de la table.
- Fournir des informations contextuelles sur les tableaux afin d'améliorer le classement des données.
- Ajout du support pour les datastores comme Elasticsearch et Kafka.
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.