Amundsen : Comment Lyft est capable de découvrir facilement ses données
Actian Corporation
27 février 2020

Dans notre dernier article, nous avons parlé du Databook d'Uber, une plateforme interne conçue par leurs propres ingénieurs dans le but de transformer les données en actifs contextualisés. Dans cet article, nous allons nous concentrer sur la découverte de données de Lyft. découverte de données et métadonnées de Lyft : Amundsen.
En réponse au succès d'Uber, le marché du covoiturage a vu arriver une importante vague de concurrents, parmi lesquels Lyft.
Chiffres clés et statistiques de Lyft
Fondée en 2012 à San Francisco, Lyft est présente dans plus de 300 villes aux États-Unis et au Canada. Avec plus de 29 % du marché américain du covoiturage*, Lyft s'est certainement assuré la deuxième place, au coude à coude avec Uber. Voici quelques statistiques clés sur Lyft :
- 23 millions d'utilisateurs de Lyft en janvier 2018.
- Plus d'un milliard de trajets en Lyft.
- 1,4 million de conducteurs (déc. 2017).
Et bien sûr, ces chiffres se sont transformés en quantités colossales de données à gérer. Dans une entreprise moderne axée sur les données comme Lyft, il est évident que la plateforme est alimentée par les données. Avec l'augmentation rapide du patrimoine de données, il devient de plus en plus difficile de savoir quelles données existent, comment y accéder et quelles informations sont disponibles.
Ce problème a conduit à la création d'Amundsen, la solution de découverte de données et la plateforme de métadonnées open-source de Lyft.
Faisons connaissance avec Amundsen
Nommé d'après l'explorateur norvégien Roald Amundsen, Lyft améliore la productivité de ses utilisateurs de données en fournissant une interface de recherche intuitive pour les données, qui ressemble à ceci :
Alors que les data scientists de Lyft souhaitaient consacrer la majeure partie de leur temps au développement et à la production de modèles, ils se sont rendu compte qu'ils passaient le plus clair de leur temps à découverte de données. Ils se posaient des questions telles que :
- Ces données existent-elles ? Si oui, où puis-je les trouver ? Puis-je y accéder ?
- Qui / quelle équipe est le propriétaire ? Qui sont les utilisateurs communs ?
- Puis-je me fier à ces données ?
Pour répondre à ces questions, Lyft s'est inspiré de moteurs de recherche comme Google.
Comme indiqué ci-dessus, leur point d'entrée est une simple boîte de recherche dans laquelle les utilisateurs peuvent taper n'importe quel mot-clé tel que "clients", "employés" ou "prix". Toutefois, si l'utilisateur utilisateur données ne sait pas ce qu'il cherche, la plateforme lui présente une liste des tableaux les plus populaires, afin qu'il puisse les parcourir librement.
Quelques caractéristiques clés :
Les résultats de la recherche sont affichés sous forme de liste où apparaissent la description du tableau et la date de sa dernière mise à jour. Le classement utilisé est similaire au Page Rank de Google, où les tableaux les plus populaires et les plus pertinents apparaissent dans les premiers résultats.
Lorsqu'un utilisateur utilisateur données chez Lyft trouve ce qu'il cherche et sélectionne son choix, il est dirigé vers une page détaillée qui affiche le nom de la table ainsi que sa description rédigée manuellement. Les utilisateurs peuvent également insérer manuellement des étiquettes, les propriétaires et d'autres descriptions. Cependant, une grande partie de leurs métadonnées est automatiquement gérée, comme la popularité de la table ou même ses utilisateurs fréquents.
Lorsqu'ils se trouvent dans un tableau, les utilisateurs peuvent explorer les colonnes associées afin de découvrir plus en détail les métadonnées du tableau.
Par exemple, si vous sélectionnez la colonne "distance_travelled" comme indiqué ci-dessous, vous trouverez une petite définition du champ et ses statistiques connexes telles que le nombre d'enregistrement, le nombre maximum, le nombre minimum, le nombre moyen, etc, pour que les scientifiques des données puissent mieux comprendre la forme de leurs données.
Enfin, les utilisateurs peuvent avoir accès aux données du jeu de données en appuyant sur le bouton de prévisualisation de la page. Bien entendu, cela n'est possible que si l'utilisateur a accès aux données sous-jacentes.
Comment Amundsen démocratise la découverte de données
Afficher les données pertinentes
Amundsen permet désormais à tous les employés de Lyft, des nouveaux aux plus expérimentés, de devenir autonomes dans leur découverte de données pour leurs tâches quotidiennes.
Parlons technique. L'entrepôt de données de Lyft est sur Hive et toutes les partitions physiques sont stockées sur S3. Les utilisateurs de leurs données s'appuient sur Presto, un moteur de requête en direct, pour la découverte de leurs tables. Pour que son moteur de recherche affiche les tables les plus importantes ou les plus pertinentes pour ses utilisateurs, Lyft utilise le framework DataBuilder pour construire un extracteur d'utilisation de requête qui analyse les journaux de requête pour obtenir des données sur l'utilisation des tables. Ensuite, ils persistent dans cette utilisation de table en tant que document de table Elasticsearch. C'est ainsi qu'ils sont en mesure d'extraire les ensembles de données les plus pertinents pour leurs utilisateurs.
Connecter les données aux personnes
Même si nous aimons clamer à quel point nous sommes techniques et numériques, les processus de recherche de données consistent principalement en des interactions avec des personnes. Et la notion de propriété des données est assez confuse ; cela prend beaucoup de temps si l'on ne sait pas exactement à qui s'adresser.
Amundsen s'attaque à ce problème en créant des relations entre les utilisateurs et leurs données, ce qui permet de partager les connaissances tribales en exposant ces relations.
Lyft a actuellement trois types de relations entre les utilisateurs et les données : suivi, possédé et utilisé. Ces informations aident les employés expérimentés à devenir des ressources utiles pour les autres employés ayant une fonction similaire. M. Amundsen facilite également la recherche des connaissances tribales grâce à un lien vers le profil de chaque utilisateur dans l'annuaire interne des employés.
Ils ont également travaillé à la mise en œuvre d'une fonction de notification qui permettrait aux utilisateurs de demander davantage d'informations aux propriétaires des données, par exemple une description manquante dans un tableau.
Si vous souhaitez obtenir de plus amples informations sur Amundsen, veuillez consulter son site web ici.
L'avenir de Lyft
Lyft espère continuer à travailler avec une communauté grandissante pour améliorer leur expérience de découverte de données et stimuler la productivité des utilisateur . Leur feuille de route comprend actuellement un système de notifications par email, un lignage des données, une refonte de l'interface utilisateur et de l'interface graphique, et bien d'autres choses encore !
La société de covoiturage n'a pas encore dit son dernier mot.
Sources :
Lyft - Statistiques et faits : https://www.statista.com/topics/4919/lyft/
Lyft et son parcours vers le succès : https://www.startupstories.in/stories/lyft-and-its-drive-through-to-success
Statistiques sur les revenus et l'utilisation de Lyft (2019) : https://www.businessofapps.com/data/lyft-statistics/
Presto Infrastructure chez Lyft : https://eng.lyft.com/presto-infrastructure-at-lyft-b10adb9db01?gi=f100fa852946
Open Sourcing Amundsen : A découverte de données And métadonnées Platform :métadonnées
Amundsen - Le moteur de découverte de données et de métadonnées de Lyft :métadonnées
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.