Uncategorized

Daten-Lakehouse

Zwei Kollegen, die an einem Laptop zusammenarbeiten, um die Effizienz eines Daten-Lakehouse für die einheitliche Datenspeicherung und -analyse in einem modernen Arbeitsbereich zu demonstrieren.

Ein Daten-Lakehouse kombiniert das Lager für die Rohdatenfunktion eines Daten-Lake mit einem integrierten Data Warehouse für die analytische Verarbeitung. Diese werden als getrennte Einheiten betrachtet, aber das Daten-Lakehouse verbindet die beiden Systeme mit Hilfe von Metadaten und einem Datenkatalog , um die Datensätze und ihre Beziehungen zueinander zu beschreiben.

Warum ist das Daten-Lakehouse wichtig?

Vor dem Aufkommen der Daten-Lakehouse existierten Data Lakes und Data Warehouses in getrennten Silos. Daten mussten von Data Lakes in Data Warehouses verschoben und umgewandelt werden, wobei manchmal komplexe Datenpipelines verwendet wurden. Die Benutzer hatten Schwierigkeiten, die benötigten Daten zu finden, was zu einer unzureichenden Nutzung der Data Warehouses und der Data Lakes, die sie speisten, führte. Die Integration des Lager und des Data Warehouse in ein einheitliches Daten-Lakehouse erhöht die Datennutzung, so dass das Unternehmen einen deutlich höheren Wert aus seinen Datenbeständen zieht.

Das Daten-Lakehouse ist eine Antwort auf Data Lakes, die oft vernachlässigt und vergessen werden und sich zu Datensümpfen entwickeln. Viele Unternehmen haben in ihrer Blütezeit Hadoop-Datenseen geschaffen, nur um erfahrene Administratoren zu verlieren, als die Begeisterung für das Konzept abflaute, was zu ihrem Untergang führte.

Was sind die Bestandteile eines Daten-Lakehouse?

Lagerung

Ein Daten-Lakehouse ist ein strukturiertes Lager , das in einem Data Warehouse in Form von Tabellen und halbstrukturierten Datenformaten wie JSON-Strings gespeichert wird. Flat Files speichern unstrukturierte Daten wie Videos, Audiodateien und Textdokumente, die in Dateisystemen gespeichert sind. Dabei kann es sich um herkömmliche Dateisysteme vor Ort oder um Cloud wie AWS S3 handeln.

Der Datenkatalog

Der Datenkatalog speichert Metadaten , die das Datenformat, die Herkunft der Etiketten und mehr beschreiben. Der Katalog hilft den Nutzern, die benötigten Daten dank durchsuchbarer Beschreibungen zu finden.

Daten Konnektoren

Datenkonnektoren bieten die Möglichkeit, auf alle Datentypen im Daten-Lakehouse zuzugreifen. Konnektoren wie Spark können über eine Standardschnittstelle auf multiple data zugreifen.

Anwendungsprogrammierschnittstellen - APIs

Anwendungen, Dienstprogramme und business intelligence (BI)-Tools verwenden APIs, um auf Daten im Daten-Lakehouse zuzugreifen.

Daten-Lakehouse Verbraucher

Dank der Qualität der im Daten-Lakehouse enthaltenen Metadaten können bürgerliche Datenanalysten problemlos BI-Abfragen ausführen, um Berichte zu erstellen und visuelle Dashboards zu bestücken. Die Daten lassen sich leichter finden und zur Analyse in das Daten-Lakehouse laden. Zusammenhängende Daten werden verlinkt, so dass sie sie ohne die Hilfe von Datenexperten kennenlernen können.

Kontrollen der Datenintegrität

Vertrauenswürdige Daten können entweder aus dem Daten-Lakehouse ausgeschlossen oder in der Metadaten als minderwertig gekennzeichnet werden. Referentielle Integritätskontrollen im Data Warehouse, die Primär- und Fremdschlüsselbeschränkungen durchsetzen, helfen dabei, die Kohärenz der Datenbeziehungen zu wahren. In Dateisystemen enthaltene Daten können gescannt werden, um logische Datenverfälschungen zu erkennen, die sich einschleichen können.

Data Governance

Das Daten-Lakehouse unterstützt data governance , indem es festhält, wer für die Daten verantwortlich ist, die Qualität und die Aktualität der Daten verfolgt und bewertet, wie zuverlässig die Daten sind. Proaktiv data governance stellt sicher, dass das Unternehmen den Datenwildwuchs kontrolliert, indem es die Benutzer auf vertrauenswürdige Daten konzentriert.

Datenqualität

Daten von schlechter Qualität sind schlimmer als keine Daten, da sie zu irreführenden Erkenntnissen führen können. Qualitativ hochwertige Daten weisen keine Lücken auf, verwenden einheitliche Formate und sind überprüft. Die Aufrechterhaltung der Datenqualität ist eine grundlegende Anforderung an einen Datenverwalter.

Vorteile eines Daten-Lakehouse

Das Daten-Lakehouse wird aus vielen der unten genannten Gründe immer beliebter:

  • Gut dokumentierte und leicht zu findende Daten werden mit größerer Wahrscheinlichkeit für die Analyse und Entscheidungsfindung verwendet.
  • Wenn Daten in einem Daten-Lakehouse gespeichert werden, können die Nutzer ihnen vertrauen.
  • In einem Daten-Lakehouse werden die Beziehungen zwischen verschiedenen Datensätzen deutlich gemacht, was die Wahrscheinlichkeit erhöht, dass sie konsumiert werden.
  • Einhaltung von Vorschriften, Data Governance und Daten-Stewardship werden durchgesetzt, was das Vertrauen erhöht und die Risiken verringert.
  • Erhöhte Sicherheit kann durch rollenbasierte Zugangskontrollen und Authentifizierung der Nutzer des Daten-Lakehouse erreicht werden.
  • Die Verwaltungskosten für ein einziges, einheitliches Lager sind geringer als für mehrere verteilte im Silo .
  • Das Daten-Lakehouse fördert die Self-Service , da die Daten beschrieben und katalogisiert werden.
  • Der API-Zugang macht das Daten-Lakehouse für Modelle desMaschinelles Lernen (ML) zugänglich.

Über die Actian Datenplattform

Die flexible Deployment Actian Data Platform ermöglicht die Verwaltung und Analyse von Daten vor Ort und in verschiedenen öffentlichen Cloud .