Intelligence des données

Comment Spotify a amélioré la découverte de données pour ses Data Scientists

Actian Corporation

19 mars 2020

spotify lexikin cover

En tant que leader mondial du marché de la musique streaming , il ne fait aucun doute que cette grande entreprise est guidée par les données.

Spotify a accès aux plus grandes collections de musique au monde, ainsi qu'à des podcasts et à d'autres contenus audio.

Qu'il s'agisse d'envisager un changement de stratégie produit ou de décider quels titres ajouter, Spotify affirme que "les données constituent la base d'une prise de décision solide".

Spotify en chiffres

Fondée en 2006 à Stockholm, en Suède, par Daniel Ek et Martin Lorentzon, la principale application musicale avait pour objectif de créer une plateforme musicale légale afin de lutter contre le piratage de la musique en ligne au début des années 2000.

Voici quelques statistiques et faits concernant Spotify en 2020 :

  • 248 millions d'utilisateurs actifs dans le monde.
  • 20 000 chansons sont ajoutées chaque jour sur leur plateforme.
  • Spotify détient une part de 40 % du marché mondial de la streaming
  • 20 milliards d'heures de musique ont été diffusées en 2015.

Ces chiffres ne représentent pas seulement le succès de Spotify, mais aussi les quantités colossales de données générées chaque année, et a fortiori chaque jour ! Pour permettre à ses employés, ou comme ils les appellent, les Spotifiers, de prendre des décisions plus rapides et plus intelligentes, Spotify a développé Lexikon.

Lexikon est une bibliothèque de données et d'informations qui aide les employés à trouver et à comprendre les données et les connaissances générées par leur communauté d'experts.

Quels ont été les problèmes de données chez Spotify ?

Dans son article How We Improved découverte de données for Data Scientists at Spotify, Spotify explique qu'ils ont commencé leur stratégie de données en migrant les données vers la Google Cloud Platformet a vu ses ensembles de données exploser. Ils étaient également en train d'embaucher de nombreux spécialistes des données tels que des data scientists, des analystes, etc. Cependant, elle explique que les ensembles de données n'avaient pas de propriété claire et qu'il n'y avait que peu ou pas de documentation, ce qui rendait difficile leur recherche par ces experts.

L'année suivante, ils ont publié Lexikon, afin de résoudre ce problème.

Leur première version a permis à leurs Spotifiers de rechercher et de parcourir les tables BigQuery disponibles, ainsi que de découvrir des recherches et des analyses antérieures. Cependant, plusieurs mois après le lancement, leurs data scientists signalaient toujours la découverte de données comme un problème majeur, passant le plus clair de leur temps à essayer de trouver leurs ensembles de données, ce qui retardait la prise de décision éclairée.

Spotify a donc décidé de se concentrer sur ce problème spécifique en itérant sur Lexikon, avec l'objectif unique d'améliorer l'expérience de découverte de données pour les data scientists. l'objectif unique d'améliorer l'expérience de découverte de données pour les data scientists.

Comment fonctionne Lexikon découverte de données ?

Pour que Lexikon fonctionne, Spotify a commencé par mener des recherches sur ses utilisateurs, leurs besoins et leurs difficultés. Ce faisant, l'entreprise a été en mesure de mieux comprendre les intentions de ses utilisateurs et d'utiliser cette compréhension pour orienter le développement de ses produits.

Faible Intent découverte de données

Par exemple, vous êtes de mauvaise humeur et vous aimeriez écouter de la musique pour vous remonter le moral. Vous ouvrez donc Spotify, parcourez les différentes listes de lecture et choisissez la liste de lecture "Mood Booster".

Tah-dah ! Voici un exemple de faible intention découverte de donnéesce qui signifie que votre objectif a été atteint sans exigences extrêmement strictes.

Pour replacer cela dans le contexte des data scientists de Spotify, en particulier les nouveaux, leur faible intention de découverte de données serait la suivante :

  • Trouver des ensembles de données populaires largement utilisés dans l'entreprise.
  • Trouver des ensembles de données pertinents pour le travail de mon équipe.
  • Trouver des ensembles de données que je n'utilise peut-être pas, mais que je devrais connaître.

Afin de répondre à ces besoins, Lexikon dispose d'une page d'accueil personnalisable permettant d'offrir des recommandations personnalisées aux utilisateurs. La page d'accueil propose des suggestions potentiellement pertinentes, générées automatiquement, pour des ensembles de données tels que :

  • Jeux de données populaires utilisés au sein de l'entreprise.
  • jeu de données récemment utilisé par l'utilisateur.
  • Jeux de données largement utilisés par l'équipe à laquelle appartient l'utilisateur .

High Intent découverte de données

Pour expliquer cela en termes simples, Spotify utilise l'exemple d'une personne qui entend une chanson et qui la recherche encore et encore dans l'application jusqu'à ce qu'elle la trouve enfin et l'écoute en boucle. Il s'agit d'une découverte de données à haute intention.

Un data scientist chez Spotify avec une forte intention a des objectifs spécifiques et est susceptible de savoir exactement ce qu'il cherche. Par exemple, il pourrait vouloir :

  • Rechercher un jeu de données par son nom.
  • Rechercher un jeu de données qui contient un champ de schéma spécifique.
  • Trouver un jeu de données lié à un sujet particulier.
  • Trouvez un jeu de données qu'un collègue a utilisé et dont il ne se souvient plus du nom.
  • Trouvez les principaux ensembles de données qu'une équipe a utilisés à des fins de collaboration.

Pour répondre aux besoins de ses data scientists, Spotify s'est d'abord concentré sur l'expérience de recherche.

Ils ont élaboré un algorithme de classement des recherches basé sur la popularité. Ce faisant, les scientifiques des données ont indiqué que leurs résultats de recherche étaient plus pertinents et qu'ils avaient davantage confiance dans les ensembles de données qu'ils découvraient, car ils étaient en mesure de voir quel jeu de données était le plus largement utilisé par l'entreprise.

En plus d'améliorer leur classement dans les moteurs de recherche, ils ont introduit de nouveaux types de propriétés (schémas, champs, contact, équipe, etc.) dans Lexikon afin de mieux représenter leur patrimoine de données.

Ces propriétés peuvent ouvrir de nouvelles voies pour la découverte de données. Dans l'exemple ci-dessous, un scientifique des données recherche un "track_uri". Il peut naviguer dans la page du champ de schéma "track_uri" et voir les principales tables contenant cette information. Depuis l'ajout de cette nouvelle fonctionnalité, elle s'est avérée être une voie critique pour la découverte de données, avec 44% des utilisateurs de Lexikon qui visitent ce type de pages".

Dernières réflexions sur Lexikon

Depuis ces améliorations, l'utilisation de Lexikon par les data scientists est passée de 75 % à 95 %, ce qui le place dans le top 5 des outils utilisés par les data scientists !

La découverte de données n'est donc plus un problème majeur pour leurs Spotifiers.

Sources :

Statistiques sur l'utilisation et les revenus de Spotify (2019) : https://www.businessofapps.com/data/spotify-statistics/
Comment nous avons amélioré la découverte de données pour les Data Scientists chez Spotify : https://labs.spotify.com/2020/02/27/how-we-improved-data-discovery-for-data-scientists-at-spotify/
75 statistiques et faits étonnants sur Spotify (2020) : https://expandedramblings.com/index.php/spotify-statistics/

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.