Metadaten durch die Augen von Web-Giganten
Actian Germany GmbH
März 17, 2020

Die Analyse des Datenlebenszyklus ist ein Element des Datenmanagement , mit dessen Umsetzung sich Unternehmen noch immer schwer tun.
Unternehmen an der Spitze der Dateninnovation wie Uber, LinkedIn, Netflix, Airbnb und Lyft haben ebenfalls den Wert von Metadaten bei der Bewältigung dieser Herausforderung erkannt.
Sie haben daher eine Strategie für die Verwaltung von Metadaten entwickelt, die auf speziellen Plattformen basiert. Diese Plattformen, die häufig kundenspezifisch entwickelt werden, erleichtern den Dateneingang, die Indizierung, die Suche, die Annotation und die Entdeckung, um qualitativ hochwertige Datensätze zu verwalten.
Die folgenden Beispiele verdeutlichen eine gemeinsame Konstante: die durch Umfang und Vielfalt erhöhte Schwierigkeit, Unternehmensdaten in verwertbares Wissen zu verwandeln.
Werfen wir einen Blick auf die Analyse und den Kontext dieser Web-Giganten:
Uber
Jede Interaktion auf der Uber-Plattform, von den Mitfahrdiensten bis zu den Essenslieferungen, ist data driven. Durch die Analyse der Daten werden zuverlässigere und relevantere Nutzer ermöglicht.
Die wichtigsten Statistiken von Uber:
- Tausende oder Milliarden von Kafka-Nachrichten pro Tag.
- Hunderte von Petabytes an Daten in HDFS in Datenzentren.
- Wöchentlich Millionen von analytischen Abfragen.
Das generierte Datenvolumen allein reicht jedoch nicht aus, um die darin enthaltenen Informationen zu nutzen. Um effektiv und effizient genutzt zu werden, benötigen die Daten mehr Kontext, um optimale Geschäftsentscheidungen zu treffen.
Um zusätzliche Informationen bereitzustellen, hat Uber deshalb "Databook" entwickelt, die unternehmensinterne Plattform, die Metadaten zu internen Datensätzen sammelt und verwaltet, um Daten in Wissen zu verwandeln.
Databook wurde entwickelt, damit Uber-Mitarbeiter die Daten von Uber effektiv kennenlernen, entdecken und nutzen können. Databook gibt den Daten einen Kontext (ihre Bedeutung, Qualität usw.) und stellt sicher, dass sie in seiner Plattform für die Tausenden von Mitarbeitern, die die Daten analysieren wollen, gepflegt werden. Kurz gesagt, Databook's Metadaten ermöglichen es Datenverantwortlichen, von der Betrachtung von Rohdaten zu verwertbarem Wissen zu gelangen.
In dem Artikel Databook: Turning Big Data into Knowledge with Metadaten at Uber kommt der Artikel zu dem Schluss, dass eine der größten Herausforderungen für Databook darin bestand, von manuellenLager auf Automatisierung umzustellen.
Airbnb
Auf einer Konferenz im Mai 2017 erläuterte John Bodley, Data Engineer bei AirBnB, neue Probleme, die sich aus dem Wachstum des Unternehmens ergaben: eine verwirrende und nicht einheitliche Landschaft, die keinen Zugang zu immer wichtigeren Informationen ermöglichte.
Was können wir mit all diesen täglich gesammelten Daten anfangen? Wie können wir sie zu einem Vorteil für alle Airbnb-Mitarbeiter machen?
Ein engagiertes Team machte sich daran, ein Instrument zu entwickeln, das den Zugang zu den Daten innerhalb des Unternehmens demokratisieren sollte. Die Arbeit stützte sich sowohl auf das Wissen der Analysten und ihre Fähigkeit, die kritischen Punkte zu verstehen, als auch auf das der Ingenieure, die eine eher technische Sichtweise einbringen konnten. Im Mittelpunkt des Projekts standen Befragungen der Mitarbeiter zu ihren Problemen.
Aus dieser Umfrage ging hervor, dass es schwierig ist, die Informationen zu finden, die die Mitarbeiter für ihre Arbeit benötigen, und dass der Austausch und die Aufbewahrung von Informationen immer noch zu sehr nach dem Stammesprinzip erfolgt.
Um diese Herausforderungen kennenlernen , hat AirBnB Data Portal geschaffen, eine Metadaten . Data Portal zentralisiert und teilt diese Informationen über diese Self-Service .
Lyft
Lyft ist ein Mitfahrdienst und der Hauptkonkurrent von Uber auf dem nordamerikanischen Markt.
Das Unternehmen stellte fest, dass der Datenzugang für seine Analyseprofile ineffizient war. Die Überlegungen konzentrierten sich auf die Bereitstellung von Datenwissen zur Optimierung seiner Prozesse. Das Ziel, eine Schnittstelle für die Datenrecherche zu schaffen, stellte das Unternehmen in nur wenigen Monaten vor diese beiden großen Herausforderungen:
- Produktivität - Wie kann Lyft diese Daten so produktiv und effizient wie möglich nutzen, sei es, um ein neues Modell zu erstellen, eine neue Kennzahl zu messen oder eine Ad-hoc-Analyse durchzuführen?
- Einhaltung von Vorschriften - Wie kann Lyft bei der Erfassung von Daten über die Nutzer eines Unternehmens die zunehmenden gesetzlichen Anforderungen erfüllen und gleichzeitig das Vertrauen seiner Nutzer erhalten?
In ihrem Artikel Amundsen - Lyft's Daten-Discovery & Metadaten engine, stellt Lyft fest, dass der Schlüssel nicht in den Daten, sondern in den Metadaten liegt.
Netflix
Als Weltmarktführer im Bereich Streaming ist die Datenverwertung bei Netflix natürlich ein wichtiger strategischer Schwerpunkt.
Angesichts der Vielfalt ihrer Datenquellen wollte die Videoplattform eine Möglichkeit bieten, diese Daten in einem einzigen Tool zu bündeln und mit ihnen zu interagieren. Diese Suche nach einer Lösung führte zu Metacat.
Dieses Tool dient als Zugangsschicht zu Daten und Metadaten aus Netflix-Datenquellen. Es ermöglicht seinen Nutzern den Zugriff auf Daten aus beliebigen Speichersystemen über drei verschiedene Funktionen:
- Hinzufügen von Metadaten: Von Hand oder Nutzer können geschäftliche Metadaten über Metacat hinzugefügt werden.
- Daten-Discovery: Das Tool veröffentlicht von seinen Nutzern definierte Schema- und Metadaten in Elasticsearch und erleichtert so die Volltextsuche nach Informationen in Datenquellen.
- Benachrichtigung über Datenänderungen und Auditing: Metacat erfasst und meldet alle Änderungen an Metadaten aus Speichersystemen.
In ihrem Blog-Artikel "Metacat: Making Big Data Discoverable and Meaningful" bei Netflix bestätigt das Unternehmen, dass die Arbeit an seiner Lösung noch lange nicht abgeschlossen ist.
Es gibt noch einige weitere Funktionen, an denen sie noch arbeiten müssen, um das Data Warehousing zu verbessern:
- Schema- und Metadaten zur Bereitstellung der Tabellenhistorie.
- Bereitstellung von Kontextinformationen zu Arrays für eine bessere Datenabfolge.
- Hinzufügen von Unterstützung für Datenspeicher wie Elasticsearch und Kafka.
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden - Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.