Data Intelligence

WhereHows: Ein Daten-Discovery und Lineage-Portal für LinkedIn

Actian Germany GmbH

April 20, 2020

linkedin-wo zeigt

Metadaten werden für moderne data driven Unternehmen immer wichtiger. In einer Welt, in der die Datenlandschaft in rasantem Tempo wächst und die Informationssysteme immer komplexer werden, haben Organisationen in allen Bereichen verstanden, wie wichtig es ist in der Lage zu sein, ihre Datenbestände zu entdecken, zu verstehen und ihnen zu vertrauen.

Ganz gleich, ob Ihr Unternehmen in der Streaming wie Spotify oder Netflix, in der Ride-Sharing-Branche wie Uber oder Lyft oder sogar im Vermietungsgeschäft wie Airbnb tätig ist, Datenteams müssen Daten-Teams müssen mit den richtigen Tools und Lösungen ausgestattet sein, die es ihnen ermöglichen, innovativ zu sein und mit ihren Daten Mehrwert zu schaffen.

In diesem Artikel werden wir uns auf WhereHows konzentrieren, ein Open-Source-Projekt, das vom LinkedIn-Datenteam geleitet wird und ein zentrales Lager und Portal für Menschen, Prozesse und Wissen rund um Daten schafft. Mit mehr als 50 Tausend Datensätzen, 14 Tausend Kommentaren und 35 Millionen Jobausführungen und den damit verbundenen Informationen über den Werdegang, ist klar, dass das Daten-Discovery von LinkedIn ein Erfolg ist.

LinkedIn Schlüsselstatistiken

Das Unternehmen wurde 2003 von Reid Hoffman, Allen Blue, Konstantin Guericke, Eric Ly und Jean-Luc Vaillant in Kalifornien gegründet und begann sehr langsam. Im Jahr 2007 wurde es schließlich profitabel und hatte 2011 mehr als 100 Millionen Mitglieder weltweit.

Ab 2020 ist LinkedIn deutlich gewachsen:

  • Mehr als 660 Millionen LinkedIn-Mitglieder weltweit, davon 206 Millionen aktive Nutzer in Europa.
  • Mehr als 80 Millionen Nutzer auf LinkedIn Slideshare.
  • Mehr als 9 Milliarden Inhaltsabrufe.
  • 30 Millionen Unternehmen sind weltweit registriert.

LinkedIn ist definitiv eine unverzichtbare professionelle Social-Networking-Anwendung für Personalvermittler, Marketingexperten und sogar Vertriebsprofis. Wie kann der Web-Gigant mit all diesen Daten Schritt halten?

Wie es anfing

Wie die meisten Unternehmen mit einem ausgereiften BI-Ökosystem verfügte LinkedIn zunächst über ein Data-Warehouse-Team, das für die Integration verschiedener Informationsquellen in konsolidierte goldene Datensätze zuständig war. Als die Anzahl der Datensätze, Produzenten und Konsumenten wuchs, fühlte sich das Team zunehmend von der kolossalen Datenmenge, die jeden Tag generiert wurde, überfordert. Einige der Fragen, die sich stellten, waren:

  • Wer ist der Eigentümer dieses Datenflusses?
  • Wie sind diese Daten zustande gekommen?
  • Wo sind die Daten?
  • Welche Daten werden verwendet?

Als Reaktion darauf hat LinkedIn beschlossen, ein zentralesLager um ihre Metadaten über alle Systeme hinweg zu erfassen und sie über eine einzigartige Plattform zur Vereinfachung der Daten-Discovery zu veröffentlichen: WhereHows.

Was ist WhereHows?

WhereHows integriert sich in alle Datenverarbeitungsumgebungen und extrahiert Metadaten aus ihnen.

Anschließend werden diese Informationen über zwei verschiedene Schnittstellen angezeigt:

  1. Eine Webanwendung, die Folgendes ermöglicht Navigation, Suche, Visualisierung der Abstammung, Diskussionen und Zusammenarbeit.
  2. Ein API-Endpunkt, der die Automatisierung von anderen Datenprozessen und Anwendungen ermöglicht.

Mit diesem Lager kann LinkedIn Probleme im Zusammenhang mit Datenabstammung, Dateneigentum, Schemaerkennung, operativem Metadaten , Datenprofilierung und Cluster Vergleich lösen. Darüber hinaus implementierten sie maschinenbasierte Mustererkennung und Assoziation zwischen dem Geschäftsglossar und ihren Datensätzenund schufen eine auf Beteiligung und Zusammenarbeit basierende Community, die es ihnen ermöglicht, die Metadaten zu pflegen, indem sie Gespräche und Stolz auf das Eigentum fördern.

Es gibt drei Hauptkomponenten von WhereHows:

  1. Ein Lager , das alle Metadaten speichert.
  2. Ein Webserver, der Daten über API und UI bereitstellt.
  3. Ein Backend-Server, der Metadaten aus anderen Informationsquellen abruft.

Wie funktioniert WhereHows?

Die Stärke von WhereHows liegt in den Metadaten , die es aus dem Daten-Ökosystem von Linkedin sammelt. Es sammelt die folgenden Metadaten:

  • Operative Metadaten, wie z.B. Aufträge, Flüsse, etc.
  • Abstammungsinformationen, die die Datensätze der Stellen miteinander verbinden.
  • Die katalogisierten Informationen wie der Speicherort des Datensatz, seine Schemastruktur, der Eigentümer, das Erstellungsdatum und so weiter.

Wie sie Metadaten verwenden

WhereHows verwendet ein universelles Modell, das es den Datenteams ermöglicht, den Wert der Metadaten besser zu nutzen, z. B. durch eine plattformübergreifende Suche nach unterschiedlichen Aspekten von Datensätzen.

Auch die Metadaten in einem Datensatz und die operativen Metadaten eines Auftrags sind zwei Endpunkte. Die Lineage-Informationen verbinden sie miteinander und ermöglichen es Datenteams, von einem Datensatz/Job zu seinen vor- und nachgelagerten Jobs/Datensätzen zurückzuverfolgen. Wenn das gesamte Datenökosystem in WhereHows gesammelt wird, können sie den Datenfluss von Anfang bis Ende verfolgen.

Wie sie Metadaten sammeln

Die zum Sammeln von Metadaten verwendete Methode hängt von der Quelle ab. Für Hadoop-Datensätze gibt es beispielsweise Scraper-Jobs, die HDFS-Ordner und -Dateien durchsuchen, die Metadaten lesen und sie dann wieder speichern.

Bei Schedulern wie Azkaban wird eine Verbindung zu ihrem Lager hergestellt, um die Metadaten zu erhalten, sie zu aggregieren und in das benötigte Format umzuwandeln und sie dann in WhereHows zu laden. Für die Lineage-Informationen analysieren sie das Protokoll eines MapReduce und das Ausführungsprotokoll eines Schedulers und kombinieren dann diese Informationen, um die Lineage zu erhalten.

Wie geht es weiter mit WhereHows?

Heute wird WhereHows bei LinkedIn nicht nur alsLager aktiv genutzt, sondern auch zur Automatisierung anderer Datenprojekte, wie z. B. der automatisierten Datenbereinigung für die Compliance. Im Jahr 2016 wurden die unten aufgeführten Systeme integriert:

Für die Zukunft hoffen die Datenteams von LinkedIn, die Abdeckung ihrer Metadaten durch die Integration weiterer Systeme wie Kafka oder Samza zu erweitern. Sie planen auch die Integration von Systemen für das Datenlebenszyklusmanagement und die Bereitstellung von Daten wie Nuage oder Goblin, um die Metadaten zu erweitern. WhereHows hat sein letztes Wort noch nicht gesprochen.

Quellen:

actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, verwalten und Analyse von Daten in Cloud, Hybrid- und On-Premises . Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und Analytik liefert Actian High-Performance Lösungen, die Unternehmen in die Lage versetzen, data driven Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und hat Branchenauszeichnungen für Leistung und Innovation erhalten. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im Actian-Blog behandeln wir Themen, die von Dateneingang bis hin zu KI-gesteuerter Analytik reichen.