Daten-Intelligenz

Wie Spotify die Daten-Discovery für seine Datenwissenschaftler verbessert hat

Actian Germany GmbH

19. März 2020

spotify lexikin cover

Als weltweiter Marktführer im Bereich Streaming ist es keine Frage, dass das riesige Unternehmen von Daten angetrieben wird.

Spotify bietet Zugang zu den größten Musiksammlungen der Welt, sowie zu Podcasts und anderen Audioinhalten.

Ganz gleich, ob sie eine Änderung der Produktstrategie in Betracht ziehen oder entscheiden, welche Titel sie hinzufügen sollten, Spotify sagt, dass "Daten eine Grundlage für eine fundierte Entscheidungsfindung bieten".

Spotify in Zahlen

Die 2006 in Stockholm, Schweden, von Daniel Ek und Martin Lorentzon gegründete führende Musik-App hatte das Ziel, eine legale Musikplattform zu schaffen, um um die Herausforderung der Online-Musikpiraterie zu bekämpfen in den frühen 2000er Jahren zu bekämpfen.

Hier sind einige Statistiken und Fakten über Spotify im Jahr 2020:

  • 248 Millionen aktive Nutzer weltweit.
  • Täglich werden 20.000 Songs auf der Plattform hinzugefügt.
  • Spotify hat einen Anteil von 40 % am weltweiten Streaming .
  • Im Jahr 2015 wurden 20 Milliarden Stunden Musik gestreamt.

Diese Zahlen stehen nicht nur für den Erfolg von Spotify, sondern auch für die kolossalen Datenmengen, die jedes Jahr, geschweige denn jeden Tag, erzeugt werden! Damit seine Mitarbeiter, oder wie sie es nennen, Spotifiers, schnellere und intelligentere Entscheidungen treffen können, hat Spotify Lexikon entwickelt.

Lexikon ist eine Bibliothek von Daten und Erkenntnissen, die den Mitarbeitern hilft, die von ihrer Expertengemeinschaft generierten Daten und Erkenntnisse zu finden und zu verstehen.

Was waren die Datenprobleme bei Spotify?

In dem Artikel How We Improved Daten-Discovery for Data Scientists at Spotify(Wie wir die Daten-Discovery für Datenwissenschaftler bei Spotify verbessert haben) erklärt Spotify, dass das Unternehmen seine Datenstrategie mit der Migration von Daten auf die Google Cloud und eine explosionsartige Vermehrung ihrer Datensätze erlebte. Sie waren auch dabei, viele Datenspezialisten wie Datenwissenschaftler, Analysten usw. einzustellen. Sie erklären jedoch, dass es den Datensätzen an klaren Eigentumsverhältnissen mangelte und sie wenig bis gar nicht dokumentiert waren, was es für diese Experten schwierig machte, sie zu finden.

Im folgenden Jahr wurde Lexikon als Lösung für dieses Problem veröffentlicht.

Die erste Version ermöglichte es den Spotifiers, die verfügbaren BigQuery-Tabellen zu durchsuchen und frühere Untersuchungen und Analysen zu entdecken. Monate nach der Markteinführung berichteten ihre Datenwissenschaftler jedoch immer noch, dass Daten-Discovery ein großes Problem darstellte und sie die meiste Zeit damit verbrachten, ihre Datensätze zu finden, was eine fundierte Entscheidungsfindung verzögerte.

Spotify beschloss daraufhin, sich auf dieses spezielle Problem zu konzentrieren, indem es Lexikon weiterentwickelte, mit dem einzigartigen Ziel, die Daten-Discovery für Datenwissenschaftler zu verbessern.

Wie funktioniert die Lexikon Daten-Discovery ?

Damit Lexikon funktionieren konnte, führte Spotify zunächst Untersuchungen über seine Nutzer, ihre Bedürfnisse und ihre Probleme durch. Auf diese Weise konnte das Unternehmen ein besseres Verständnis für die Absichten seiner Nutzer gewinnen und dieses Verständnis für die Produktentwicklung nutzen.

Low Intent Daten-Discovery

Sie haben zum Beispiel schlechte Laune und möchten Musik hören, um Ihre Stimmung zu heben. Du öffnest also Spotify, stöberst durch die verschiedenen Stimmungs-Playlists und legst die "Mood Booster"-Playlist an.

Tah-dah! Dies ist ein Beispiel für Low-Intent Daten-Discoveryd.h. Ihr Ziel wurde ohne extrem strenge Anforderungen erreicht.

Um dies in den Kontext der Datenwissenschaftler von Spotify zu setzen, insbesondere der neuen, wäre ihre Daten-Discovery mit geringer Absicht:

  • Finden Sie beliebte Datensätze, die im Unternehmen weit verbreitet sind.
  • Datensätze finden, die für die Arbeit meines Teams relevant sind.
  • Finden Sie Datensätze, die ich vielleicht nicht verwende, die ich aber kennen sollte.

Um diese Bedürfnisse zu befriedigen, verfügt Lexikon über eine anpassbare Homepage, die den Benutzern personalisierte Empfehlungen bietet. Die Homepage empfiehlt potenziell relevante, automatisch generierte Vorschläge für Datensätze wie z.B.:

  • Beliebte Datensätze, die innerhalb des Unternehmens verwendet werden.
  • Datensatz wurde kürzlich vom Nutzer verwendet.
  • Von dem Team, dem der Nutzer angehört, häufig verwendete Datensätze.

High Intent Daten-Discovery

Um dies in einfachen Worten zu erklären, verwendet Spotify das Beispiel, dass man einen Song hört und ihn immer wieder in der App sucht, bis man ihn schließlich findet und ihn in der Wiederholung anhört. Das ist High Intent Daten-Discovery.

Ein Data-Scientist bei Spotify mit hoher Intention hat spezifische Ziele und weiß wahrscheinlich genau, wonach er sucht. Zum Beispiel könnte er Folgendes wollen:

  • Suchen Sie einen Datensatz anhand seines Namens.
  • Suchen Sie einen Datensatz , der ein bestimmtes Schemafeld enthält.
  • Finden Sie einen Datensatz zu einem bestimmten Thema.
  • Finden Sie einen Datensatz , den ein Kollege verwendet hat und an dessen Namen er sich nicht mehr erinnern kann.
  • Finden Sie die wichtigsten Datensätze, die ein Team für die Zusammenarbeit verwendet hat.

Um die Anforderungen der Datenwissenschaftler zu erfüllen, konzentrierte sich Spotify zunächst auf die Suchfunktion.

Sie erstellten einen Suchalgorithmus, der auf der Popularität basiert. Auf diese Weise berichteten die Datenwissenschaftler, dass ihre Suchergebnisse relevanter waren und sie mehr Vertrauen in die von ihnen entdeckten Datensätze hatten, weil sie sehen konnten, welcher Datensatz im Unternehmen am häufigsten verwendet wurde.

Neben der Verbesserung ihres Suchrankings haben sie neue Arten von Eigenschaften (Schemata, Felder, Kontakt, Team, usw.) in Lexikon eingeführt, um ihre Datenlandschaft besser darzustellen.

Diese Eigenschaften sind in der Lage, neue Wege für die Daten-Discovery zu eröffnen. In dem Beispiel unten sucht ein Data-Scientist nach einer "track_uri". Er kann durch die "track_uri"-Schemafeldseite navigieren und die wichtigsten Tabellen sehen, die diese Informationen enthalten. Seitdem wir diese neue Funktion hinzugefügt haben, hat sie sich als wichtiger Weg für die Daten-Discovery erwiesen, da 44% der Lexikon-Nutzer diese Art von Seiten besuchen."

Abschließende Überlegungen zu Lexikon

Seit diesen Verbesserungen ist die Nutzung von Lexikon unter Datenwissenschaftlern von 75 % auf 95 % gestiegen, womit es zu den 5 meistgenutzten Tools von Datenwissenschaftlern gehört!

Daten-Discovery ist somit nicht länger ein großer Schmerzpunkt für ihre Spotifier.

Quellen:

Spotify Nutzungs- und Umsatzstatistiken (2019): https://www.businessofapps.com/data/spotify-statistics/
Wie wir die Daten-Discovery für Datenwissenschaftler bei Spotify verbessert haben: https://labs.spotify.com/2020/02/27/how-we-improved-data-discovery-for-data-scientists-at-spotify/
75 erstaunliche Spotify Statistiken und Fakten (2020): https://expandedramblings.com/index.php/spotify-statistics/

actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, Verwaltung und Analyse von Daten in Cloud-, Hybrid- und lokalen Umgebungen. Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und -analyse liefert Actian leistungsstarke Lösungen, die es Unternehmen ermöglichen, datengesteuerte Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und wurde für seine Leistung und Innovation mit Branchenpreisen ausgezeichnet. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im ActianBlog behandeln wir Themen wie Echtzeit-Dateneingabe, Datenanalyse, Data Governance, Datenmanagement, Datenqualität, Datenintelligenz und KI-gesteuerte Analysen.