Amundsen: Wie Lyft seine Daten auf einfache Weise entdecken kann
Actian Germany GmbH
27. Februar 2020

In unserem letzten Artikel haben wir über das Databook von Uber berichtet, eine in-house Plattform, die von den Uber-Ingenieuren mit dem Ziel entwickelt wurde, Daten in kontextualisierte Daten zu verwandeln. In diesem Artikel befassen wir uns mit Lyft's eigenem Daten-Discovery und Metadaten : Amundsen.
Als Reaktion auf den Erfolg von Uber ist auf dem Markt für Mitfahrgelegenheiten eine große Welle von Wettbewerbern entstanden, zu denen auch Lyft gehört.
Lyft-Kennzahlen & Statistiken
Lyft wurde 2012 in San Francisco gegründet und ist in mehr als 300 Städten in den Vereinigten Staaten und Kanada vertreten. Mit einem Anteil von über 29 % am US-Markt für Mitfahrgelegenheiten* hat sich Lyft den zweiten Platz gesichert und liegt Kopf an Kopf mit Uber. Einige wichtige Statistiken über Lyft sind:
- 23 Millionen Lyft-Nutzer (Stand: Januar 2018).
- Mehr als eine Milliarde Fahrten mit Lyft.
- 1,4 Millionen Fahrer (Dez. 2017).
Und natürlich haben sich diese Zahlen in kolossale Datenmengen verwandelt, die es zu verwalten gilt. In einem modernen data driven Unternehmen wie Lyft ist es offensichtlich, dass die Plattform von den Daten angetrieben wird. Mit der rasanten Zunahme der Datenlandschaft wird es immer schwieriger zu wissen, welche Daten existieren, wie man auf sie zugreifen kann und welche Informationen verfügbar sind.
Dieses Problem führte zur Entwicklung von Amundsen, der Daten-Discovery und Metadaten von Lyft.
Lernen wir Amundsen kennen
Lyft, benannt nach dem norwegischen Entdecker Roald Amundsen, verbessert die Produktivität der Datennutzer durch eine intuitive Suchoberfläche für Daten, die so aussieht:
Während die Datenwissenschaftler von Lyft die meiste Zeit mit der Modellentwicklung und -produktion verbringen wollten, stellten sie fest, dass sie die meiste Zeit mit der Daten-Discovery verbrachten. Sie stellten sich dabei Fragen wie:
- Gibt es diese Daten? Wenn ja, wo kann ich sie finden? Kann ich auf sie zugreifen?
- Wer / welches Team ist der Eigentümer? Wer sind die gemeinsamen Nutzer?
- Kann ich diesen Daten vertrauen?
Um diese Fragen zu beantworten, hat sich Lyft von Suchmaschinen wie Google inspirieren lassen.
Wie oben dargestellt, ist der Einstiegspunkt ein einfaches Suchfeld, in das die Nutzer ein beliebiges Stichwort wie "Kunden", "Mitarbeiter" oder "Preis" eingeben können. Wenn der Nutzer jedoch nicht weiß, wonach er sucht, präsentiert die Plattform dem Nutzer eine Liste der beliebtesten Tabellen, so dass er sie frei durchstöbern kann.
Einige Hauptmerkmale:
Die Suchergebnisse werden in "Listenform" angezeigt, wobei die Beschreibung der Tabelle und das Datum der letzten Aktualisierung der Tabelle erscheinen. Die Rangfolge ist ähnlich wie bei Google Page Rank, wobei die beliebtesten und relevantesten Tabellen in den ersten Ergebnissen erscheinen.
Wenn ein Nutzer bei Lyft das Gesuchte findet und auswählt, wird Nutzer auf eine Detailseite weitergeleitet, auf der der Name der Tabelle sowie die manuell erstellte Beschreibung angezeigt werden. Benutzer können auch manuell Tags, die Besitzer und andere Beschreibungen einfügen. Ein großer Teil der Metadaten wird jedoch automatisch kuratiert, z. B. die Beliebtheit des Tisches oder sogar seine häufigen Nutzer.
In einer Tabelle können Benutzer die zugehörigen Spalten kennenlernen , um die Metadaten der Tabelle weiter zu erkunden.
Wenn Sie z. B. die Spalte "distance_travelled" wie unten gezeigt auswählen, finden Sie eine kleine Definition des Feldes und die zugehörigen Statistiken wie die Aufzeichnung Anzahl, die maximale Anzahl, die minimale Anzahl, die durchschnittliche Anzahl usw., damit Datenwissenschaftler die Form ihrer Daten besser verstehen können.
Schließlich können die Nutzer die Daten des Datensatz einsehen, indem sie den Vorschau-Button der Seite drücken. Dies ist natürlich nur möglich, wenn der Nutzer überhaupt Zugriff auf die zugrunde liegenden Daten hat.
Wie Amundsen die Daten-Discovery demokratisiert
Anzeige der relevanten Daten
Amundsen befähigt nun alle Mitarbeiter bei Lyft, von neuen Mitarbeitern bis hin zu den erfahrensten, in ihrer Daten-Discovery für ihre täglichen Aufgaben autonom zu werden.
Lassen Sie uns nun über die Technik sprechen. Das Data Warehouse von Lyft basiert auf Hive und alle physischen Partitionen sind in S3 gespeichert. Die Datennutzer verlassen sich bei der Erkennung ihrer Tabellen auf Presto, eine Anfrage . Damit die Suchmaschine die wichtigsten oder relevantesten Tabellen für die Benutzer anzeigt, verwendet Lyft das DataBuilder Framework , um einen Anfrage zu erstellen, der die Anfrage analysiert, um Tabellennutzungsdaten zu erhalten. Anschließend wird diese Tabellennutzung als Elasticsearch-Tabellendokument persistiert. Auf diese Weise sind sie in der Lage, in aller Kürze die relevantesten Datensätze für ihre Nutzer abzurufen.
Daten mit Menschen verknüpfen
So gerne wir auch behaupten, wie technisch und digital wir alle sind, die Prozesse zur Datenbeschaffung bestehen hauptsächlich aus Interaktionen mit Menschen. Und der Begriff des Dateneigentums ist ziemlich verwirrend; es ist sehr zeitaufwendig, wenn man nicht genau weiß, wen man fragen muss.
Amundsen geht dieses Problem an, indem es Beziehungen zwischen seinen Nutzern und ihren Daten herstellt, so dass Stammeswissen durch die Offenlegung dieser Beziehungen geteilt wird.
Bei Lyft gibt es derzeit drei Arten von Beziehungen zwischen Nutzern und Daten: verfolgt, besessen und verwendet. Diese Informationen helfen erfahrenen Mitarbeitern dabei, hilfreiche Ressourcen für andere Mitarbeiter mit einer ähnlichen Jobrolle zu werden. Amundsen macht das Stammeswissen auch leichter auffindbar, dank eines Links zu jedem Nutzer im internen Mitarbeiterverzeichnis.
Außerdem wird an der Implementierung einer Benachrichtigungsfunktion gearbeitet, die es den Nutzern ermöglicht, weitere Informationen von den Datenbesitzern anzufordern, z. B. eine fehlende Beschreibung in einer Tabelle.
Wenn Sie weitere Informationen über Amundsen wünschen, besuchen Sie bitte die Website des Unternehmens hier.
Was kommt als Nächstes für Lyft?
Lyft hofft, die Zusammenarbeit mit einer wachsenden Community fortsetzen zu können, um das Daten-Discovery zu verbessern und die Produktivität Nutzer zu steigern. Ihre Roadmap umfasst derzeit ein E-Mail-Benachrichtigungssystem, eine Datenabfolge, ein UI/UX-Redesign und mehr!
Das Ride-Sharing-Unternehmen hat sein letztes Wort noch nicht gesprochen.
Quellen:
Lyft - Statistiken und Fakten: https://www.statista.com/topics/4919/lyft/
Lyft und sein Weg zum Erfolg: https://www.startupstories.in/stories/lyft-and-its-drive-through-to-success
Lyft-Umsatz- und Nutzungsstatistiken (2019): https://www.businessofapps.com/data/lyft-statistics/
Presto-Infrastruktur bei Lyft: https://eng.lyft.com/presto-infrastructure-at-lyft-b10adb9db01?gi=f100fa852946
Open Sourcing Amundsen: Eine Daten-Discovery und Metadaten https:Metadaten
Amundsen - die Daten-Discovery & Metadaten von Lyft: https:Metadaten
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden - Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.