Amundsen : Comment Lyft est capable de découvrir facilement ses données

Dans notre dernier article, nous avons parlé du Databook d'Uber, une plateforme interne conçue par leurs propres ingénieurs dans le but de transformer les données en actifs contextualisés. Dans cet article, nous allons nous concentrer sur la découverte de données de Lyft. découverte de données et métadonnées de Lyft : Amundsen.

Face au succès d'Uber, le marché du covoiturage a vu arriver une importante vague de concurrents, parmi lesquels Lyft.

Chiffres clés et statistiques de Lyft

Fondée en 2012 à San Francisco, Lyft est présente dans plus de 300 villes aux États-Unis et au Canada. Avec plus de 29 % du marché américain du covoiturage*, Lyft s'est certainement assuré la deuxième place, au coude à coude avec Uber. Voici quelques statistiques clés sur Lyft :

23 millions d'utilisateurs de Lyft en janvier 2018.
Plus d'un milliard de trajets en Lyft.
1,4 million de conducteurs (déc. 2017).

Et bien sûr, ces chiffres se sont transformés en quantités colossales de données à gérer. Dans une entreprise moderne axée sur les données comme Lyft, il est évident que la plateforme est alimentée par des données. Avec l'augmentation rapide du patrimoine de données, il devient de plus en plus difficile de savoir quelles données existent, comment y accéder et quelles informations sont disponibles.

Ce problème a conduit à la création d'Amundsen, la solution de découverte de données et la plateforme de métadonnées open-source de Lyft.

Faisons connaissance avec Amundsen

Nommé d'après l'explorateur norvégien Roald Amundsen, Lyft améliore la productivité de ses utilisateurs de données en fournissant une interface de recherche intuitive pour les données, qui ressemble à ceci :

Alors que les data scientists de Lyft souhaitaient consacrer la majeure partie de leur temps au développement et à la production de modèles, ils se sont rendu compte qu'ils passaient le plus clair de leur temps à découverte de données. Ils se posaient des questions telles que :

Ces données existent-elles ? Si oui, où puis-je les trouver ? Puis-je y accéder ?
Qui / quelle équipe est le propriétaire ? Qui sont les utilisateurs communs ?
Puis-je me fier à ces données ?

Pour répondre à ces questions, Lyft s'est inspiré de moteurs de recherche comme Google.

Comme indiqué ci-dessus, leur point d'entrée est une simple boîte de recherche dans laquelle les utilisateurs peuvent taper n'importe quel mot-clé tel que "clients", "employés" ou "prix". Toutefois, si l'utilisateur utilisateur données ne sait pas ce qu'il cherche, la plateforme lui présente une liste des tableaux les plus populaires, afin qu'il puisse les parcourir librement.

Quelques caractéristiques clés :

Les résultats de la recherche sont affichés sous forme de liste où apparaissent la description du tableau et la date de sa dernière mise à jour. Le classement utilisé est similaire au Page Rank de Google, où les tableaux les plus populaires et les plus pertinents apparaissent dans les premiers résultats.

Lorsqu'un utilisateur utilisateur données chez Lyft trouve ce qu'il cherche et sélectionne son choix, il est dirigé vers une page détaillée qui affiche le nom de la table ainsi que sa description rédigée manuellement. Les utilisateurs peuvent également insérer manuellement des étiquettes, les propriétaires et d'autres descriptions. Cependant, une grande partie de leurs métadonnées est automatiquement gérée, comme la popularité de la table ou même ses utilisateurs fréquents.

Lorsqu'ils se trouvent dans un tableau, les utilisateurs peuvent explorer les colonnes associées afin de découvrir plus en détail les métadonnées du tableau.

Par exemple, si vous sélectionnez la colonne "distance_travelled" comme indiqué ci-dessous, vous trouverez une petite définition du champ et ses statistiques connexes telles que le nombre d'enregistrement, le nombre maximum, le nombre minimum, le nombre moyen, etc, pour que data scientists puissent mieux comprendre la forme de leurs données.

Enfin, les utilisateurs peuvent avoir accès aux données du jeu de données en appuyant sur le bouton de prévisualisation de la page. Bien entendu, cela n'est possible que si l'utilisateur a accès aux données sous-jacentes.

Comment Amundsen démocratise la découverte de données

Afficher les données pertinentes

Amundsen permet désormais à tous les employés de Lyft, des nouveaux aux plus expérimentés, de devenir autonomes dans leur découverte de données pour leurs tâches quotidiennes.

Parlons technique. L'entrepôt de données de Lyft est sur Hive et toutes les partitions physiques sont stockées sur S3. Les utilisateurs de leurs données s'appuient sur Presto, un moteur de requête en direct, pour la découverte de leurs tables. Pour que son moteur de recherche affiche les tables les plus importantes ou les plus pertinentes pour ses utilisateurs, Lyft utilise le framework DataBuilder pour construire un extracteur d'utilisation de requête qui analyse les journaux de requête pour obtenir des données sur l'utilisation des tables. Ensuite, ils persistent dans cette utilisation de table en tant que document de table Elasticsearch. C'est ainsi qu'ils sont en mesure de récupérer les jeux de données les plus pertinents pour leurs utilisateurs de données.

Connecter les données aux personnes

Même si nous aimons clamer à quel point nous sommes techniques et numériques, les processus de recherche de données consistent principalement en des interactions avec des personnes. Et la notion de propriété des données est assez confuse ; cela prend beaucoup de temps si l'on ne sait pas exactement à qui s'adresser.

Amundsen s'attaque à ce problème en créant des relations entre les utilisateurs et leurs données, ce qui permet de partager les connaissances tribales en exposant ces relations.

Lyft a actuellement trois types de relations entre les utilisateurs et les données : suivi, possédé et utilisé. Ces informations aident les employés expérimentés à devenir des ressources utiles pour les autres employés ayant une fonction similaire. M. Amundsen facilite également la recherche des connaissances tribales grâce à un lien vers le profil de chaque utilisateur dans l'annuaire interne des employés.

Ils ont également travaillé à la mise en œuvre d'une fonction de notification qui permettrait aux utilisateurs de demander davantage d'informations aux propriétaires des données, par exemple une description manquante dans un tableau.

Si vous souhaitez obtenir de plus amples informations sur Amundsen, veuillez consulter son site web ici.

L'avenir de Lyft

Lyft espère continuer à travailler avec une communauté grandissante pour améliorer leur expérience de découverte de données et stimuler la productivité des utilisateur . Leur feuille de route comprend actuellement un système de notifications par email, un lignage des données, une refonte de l'interface utilisateur et de l'interface graphique, et bien d'autres choses encore !

La société de covoiturage n'a pas encore dit son dernier mot.

Sources :

Lyft – Statistiques et faits :https://www.statista.com/topics/4919/lyft/
Lyft et son parcours vers le succès :https://www.startupstories.in/stories/lyft-and-its-drive-through-to-success
Statistiques sur les revenus et l'utilisation de Lyft (2019) :https://www.businessofapps.com/data/lyft-statistics/
L'infrastructure Presto chez Lyft :https://eng.lyft.com/presto-infrastructure-at-lyft-b10adb9db01?gi=f100fa852946
Open Sourcing Amundsen : métadonnées de découverte de données métadonnées :métadonnées
Amundsen — métadonnées découverte de données métadonnées de Lyft :métadonnées

À propos de l'auteur

À propos d' Actian Corporation

Actian permet aux entreprises de gérer et de contrôler leurs données à grande échelle en toute confiance. Les organisations font confiance aux solutions gestion des données d'intelligence des données d'Actian pour rationaliser les environnements de données complexes et accélérer la fourniture de données prêtes pour l'IA. Conçues pour être flexibles, les solutions Actian s'intègrent de manière transparente et fonctionnent de manière fiable dans les environnements sur site, cloud et hybrides. Pour en savoir plus sur Actian, la division données et IA de HCLSoftware, rendez-vous sur actian.com.

Plateforme Actian Data Intelligence Nouveau

Fonctionnalités clés

Fonctionnalités clés

Actian Data Observability Nouveau

Fonctionnalités clés

Bases de données

Produits

Actian Data Platform

Fonctionnalités clés

Intégration des données

Produits

Vue d’ensemble des produits

Tous les produits

Amundsen : Comment Lyft est capable de découvrir facilement ses données

Chiffres clés et statistiques de Lyft