Daten-Lakehouse

A Daten-Lakehouse kombiniert das Lager eines Seehauses mit einem integrierten Data Warehouse zur analytischen Verarbeitung. Metadaten und ein Datenkatalog , der die Datensätze und ihre Zusammenhänge beschreibt, verbinden den Daten-Lake und das Data Warehouse.
Warum ist das Daten-Lakehouse wichtig?
Vor der Entwicklung des Daten-Lakehouse existierten Data Lakes und Data Warehouses in Silos. Ohne Metadaten und Datenkatalog war es für die Nutzer schwierig, die benötigten Daten zu finden. Dies führte zu einer unzureichenden Nutzung von Data Warehouses und Data Lakes, die Daten in Data Warehouses einspeisten. Dateningenieure verschoben Daten aus Data Lakes in Data Warehouses mithilfe komplexer ETL-Pipelines (Extract Transform Load). Durch die Vereinheitlichung wird eine bessere Datennutzung ermöglicht, was dazu führt, dass das Unternehmen mehr Wert aus seinen Daten ziehen kann.
Wer sind die Nutzer?
Die Hauptnutzer sind Dateningenieure und Datenwissenschaftler. Dank der Qualität der Metadaten können auch Datenanalysten sie nutzen, da sie Daten für die Analyse leichter finden können.
Was sind die Schlüsselelemente eines Daten-Lakehouse?
Lagerung
Sie enthalten strukturierte Daten, die in einer Datenbank in Form von Tabellen und halbstrukturierten Datenformaten wie JSON-Strings gespeichert werden. Flat Files speichern unstrukturierte Daten wie Video-, Audio- und Textströme.
Datenkatalog
Der Datenkatalog speichert Metadaten , die das Datenformat, die Herkunft der Etiketten und mehr beschreiben.
Daten Konnektoren
Datenkonnektoren ermöglichen den Zugang zu allen Datenquellen.
APIs
Anwendungen, Dienstprogramme und business intelligence (BI) verwenden Anwendungsprogrammierschnittstellen (APIs), um auf die darin enthaltenen Daten zuzugreifen.
Herstellung der Datenintegrität
Das Data Warehouse verwendet Primär- und Fremdschlüssel, um die Kohärenz der Datenbeziehungen aufrechtzuerhalten, so dass Änderungen an Daten an einer Stelle auch in anderen zugehörigen Datensätzen berücksichtigt werden. Die in einem Dateisystem enthaltenen Daten beruhen auf Datenbereinigung, Validierung und Transformationsregeln, um festzustellen, ob NULL-Werte gültig sind. Validierungsscans können logische Datenverfälschungen aufdecken.
Data Governance
Es hilft bei der data governance , indem es aufzeichnet, wer für die Daten verantwortlich ist, die Aktualität der Daten verfolgt und bewertet, wie zuverlässig die Daten sind.
Datenqualität
Datenqualität stellt sicher, dass die Nutzer den Daten vertrauen können. Die Datenqualität misst, wie gut ein Datensatz die Kriterien für Genauigkeit, Vollständigkeit, Gültigkeit, Beständigkeit, Einzigartigkeit, Aktualität und Zweckmäßigkeit erfüllt.
Daten-Lakehouse Vorteile
Sie bietet viele Vorteile, darunter die folgenden:
- Die mit Metadaten dokumentierten Daten sind für das Unternehmen von größerem Wert, weil die Benutzer sie finden und nutzen können.
- Er ist leichter zugänglich als ein Daten-Lake weil das Seehaus den Zusammenhang zwischen den verschiedenen Datensätzen aufzeigt.
- Sie fördert eine bessere data governance, was die Einhaltung von Vorschriften verbessert und Risiken verringert.
- Die rollenbasierte Zugriffskontrolle (RBAC) trägt zum Schutz der Daten im Daten-Lakehouse bei.
- Es zentralisiert die Verwaltung im Gegensatz zu föderierten, verteilten Datenspeichern.
- Das Daten-Lakehouse fördert die Self-Service dank des integrierten Datenkatalog.
- Im Gegensatz zu einem Daten-Lake verfügt das Daten-Lakehouse über einen Datenkatalog , der dokumentiert, wie die verschiedenen Datensätze miteinander in Beziehung stehen.
- Maschinelles Lernen (ML) kann oft bessere Vorhersagen machen, wenn ein Daten-Lakehouse verwendet wird, das komplette Datensätze speichert.
Actian und das Daten-Lakehouse
Die Actian Data Platform macht es einfacher, ein High-Performance Daten-Lakehouse zu erstellen. Die integrierte spaltenbasierte, vektorisierte Datenbank nutzt eine parallele Anfrage , die der eines traditionellen Data Warehouse überlegen ist.
Die Actian Data Platform unterstützt hybride und Cloud mit On-Premises, AWS, Azure und Google Cloud . Die Vektordatenbank kann mit ihrem Spark Konnektor auf Daten zugreifen, die in Dateisystemen gespeichert sind, und kann in einer einzigen Anfrage auf mehrere verteilte Datenbankinstanzen zugreifen.
Integrierte Datenintegrationsfunktionen können Datenprofile erstellen, Datenvorbereitungsschritte automatisieren und gestreamte Datenquellen unterstützen. Die von der Actian Data Platform angebotenen Funktionen arbeiten mit gängigen Datenspeicherstrukturen, darunter S3-Buckets, Google Drive-Ordner und Azure Blob-Storage.