WhereHows: Ein Daten-Discovery und Lineage-Portal für LinkedIn
Actian Germany GmbH
April 20, 2020

Metadaten werden für moderne data driven Unternehmen immer wichtiger. In einer Welt, in der die Datenlandschaft in rasantem Tempo wächst und die Informationssysteme immer komplexer werden, haben Organisationen in allen Bereichen verstanden, wie wichtig es ist in der Lage zu sein, ihre Datenbestände zu entdecken, zu verstehen und ihnen zu vertrauen.
Ganz gleich, ob Ihr Unternehmen in der Streaming wie Spotify oder Netflix, in der Ride-Sharing-Branche wie Uber oder Lyft oder sogar im Vermietungsgeschäft wie Airbnb tätig ist, es ist für Datenteams unerlässlich mit den richtigen Tools und Lösungen ausgestattet sind, die es ihnen ermöglichen, innovativ zu sein und mit ihren Daten Mehrwert zu schaffen.
In diesem Artikel konzentrieren wir uns auf WhereHows, ein Open-Source-Projekt unter der Leitung des LinkedIn-Datenteams, das ein zentrales Lager und Portal für Menschen, Prozesse und Wissen rund um Daten schafft. Mit mehr als 50 Tausend Datensätzen, 14 Tausend Kommentaren und 35 Millionen Jobausführungen und den damit verbundenen Informationen über den Werdegang, ist klar, dass das Daten-Discovery von LinkedIn ein Erfolg ist.
LinkedIn Schlüsselstatistiken
Das Unternehmen wurde 2003 von Reid Hoffman, Allen Blue, Konstantin Guericke, Eric Ly und Jean-Luc Vaillant in Kalifornien gegründet und begann sehr langsam. Im Jahr 2007 wurde es schließlich profitabel und hatte 2011 mehr als 100 Millionen Mitglieder weltweit.
Ab 2020 ist LinkedIn deutlich gewachsen:
- Mehr als 660 Millionen LinkedIn-Mitglieder weltweit, davon 206 Millionen aktive Nutzer in Europa.
- Mehr als 80 Millionen Nutzer auf LinkedIn Slideshare.
- Mehr als 9 Milliarden Inhaltsabrufe.
- 30 Millionen Unternehmen sind weltweit registriert.
LinkedIn ist definitiv eine unverzichtbare professionelle Social-Networking-Anwendung für Personalvermittler, Marketingexperten und sogar Vertriebsprofis. Wie kann der Web-Gigant mit all diesen Daten Schritt halten?
Wie alles anfing
Wie die meisten Unternehmen mit einem ausgereiften BI-Ökosystem verfügte LinkedIn zunächst über ein Data-Warehouse-Team, das für die Integration verschiedener Informationsquellen in konsolidierte goldene Datensätze zuständig war. Als die Anzahl der Datensätze, Produzenten und Konsumenten wuchs, fühlte sich das Team zunehmend von der kolossalen Datenmenge, die jeden Tag generiert wurde, überfordert. Einige der Fragen, die sich stellten, waren:
- Wer ist der Eigentümer dieses Datenflusses?
- Wie sind diese Daten zustande gekommen?
- Wo sind die Daten?
- Welche Daten werden verwendet?
Als Reaktion darauf hat LinkedIn beschlossen, ein zentralesLager um ihre Metadaten über alle Systeme hinweg zu erfassen und sie über eine einzigartige Plattform zur Vereinfachung der Daten-Discovery zu veröffentlichen: WhereHows.
Was ist WhereHows?
WhereHows integriert sich in alle Datenverarbeitungsumgebungen und extrahiert Metadaten aus ihnen.
Anschließend werden diese Informationen über zwei verschiedene Schnittstellen angezeigt:
- Eine Webanwendung, die Folgendes ermöglicht Navigation, Suche, Visualisierung der Abstammung, Diskussionen und Zusammenarbeit.
- Ein API-Endpunkt, der die Automatisierung von anderen Datenprozessen und Anwendungen ermöglicht.
Mit diesem Lager kann LinkedIn Probleme im Zusammenhang mit Datenabstammung, Dateneigentum, Schemaerkennung, operativem Metadaten , Datenprofilierung und Cluster Vergleich lösen. Darüber hinaus implementierten sie maschinenbasierte Mustererkennung und Assoziation zwischen dem Geschäftsglossar und ihren Datensätzenund schufen eine auf Beteiligung und Zusammenarbeit basierende Community, die es ihnen ermöglicht, die Metadaten zu pflegen, indem sie Gespräche und Stolz auf das Eigentum fördern.
Es gibt drei Hauptkomponenten von WhereHows:
- Ein Lager , das alle Metadaten speichert.
- Ein Webserver, der Daten über API und UI bereitstellt.
- Ein Backend-Server, der Metadaten aus anderen Informationsquellen abruft.
Wie funktioniert WhereHows?
Die Stärke von WhereHows liegt in den Metadaten , die es aus dem Daten-Ökosystem von Linkedin sammelt. Es sammelt die folgenden Metadaten:
- Operative Metadaten, wie z.B. Aufträge, Flüsse, etc.
- Abstammungsinformationen, die die Datensätze der Stellen miteinander verbinden.
- Die katalogisierten Informationen wie der Speicherort des Datensatz, seine Schemastruktur, der Eigentümer, das Erstellungsdatum und so weiter.
Wie sie Metadaten verwenden
WhereHows verwendet ein universelles Modell, das es den Datenteams ermöglicht, den Wert der Metadaten besser zu nutzen, z. B. durch eine plattformübergreifende Suche nach unterschiedlichen Aspekten von Datensätzen.
Auch die Metadaten in einem Datensatz und die operativen Metadaten eines Auftrags sind zwei Endpunkte. Die Lineage-Informationen verbinden sie miteinander und ermöglichen es Datenteams, von einem Datensatz/Job zu seinen vor- und nachgelagerten Jobs/Datensätzen zurückzuverfolgen. Wenn das gesamte Datenökosystem in WhereHows gesammelt wird, können sie den Datenfluss von Anfang bis Ende verfolgen.
Wie sie Metadaten sammeln
Die zum Sammeln von Metadaten verwendete Methode hängt von der Quelle ab. Für Hadoop-Datensätze gibt es beispielsweise Scraper-Jobs, die HDFS-Ordner und -Dateien durchsuchen, die Metadaten lesen und sie dann wieder speichern.
Bei Schedulern wie Azkaban wird eine Verbindung zu ihrem Lager hergestellt, um die Metadaten zu erhalten, sie zu aggregieren und in das benötigte Format umzuwandeln und sie dann in WhereHows zu laden. Für die Lineage-Informationen analysieren sie das Protokoll eines MapReduce und das Ausführungsprotokoll eines Schedulers und kombinieren dann diese Informationen, um die Lineage zu erhalten.
Wie geht es weiter mit WhereHows?
Heute wird WhereHows bei LinkedIn nicht nur alsLager aktiv genutzt, sondern auch zur Automatisierung anderer Datenprojekte, wie z. B. der automatisierten Datenbereinigung für die Compliance. Im Jahr 2016 wurden die unten aufgeführten Systeme integriert:
Für die Zukunft hoffen die Datenteams von LinkedIn, die Abdeckung ihrer Metadaten durch die Integration weiterer Systeme wie Kafka oder Samza zu erweitern. Sie planen auch die Integration von Systemen für das Datenlebenszyklusmanagement und die Bereitstellung von Daten wie Nuage oder Goblin, um die Metadaten zu erweitern. WhereHows hat sein letztes Wort noch nicht gesprochen.
Quellen:
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden - Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.