Warum ist die Daten-Lakehouse so wichtig?
Wenn man alle Datensätze in einem einzigen Lager ohne angemessene Beschreibungen speichert, verwandelt sich dieses schnell in einen ungenutzten Datensumpf. Datensätze benötigen beschreibende Informationen wie Metadaten , die es den Benutzern ermöglichen, Daten zu finden, zu nutzen und ihnen schließlich zu vertrauen. Die Pflege von Data Lakes und Data Warehouses in Silos ist ineffizient, da die Daten zur Analyse in das Data Warehouse verschoben werden müssen. Die Kombination der beiden unterschiedlichen Funktionen in einer einheitlichen Daten-Lakehouse strafft die Datenpipelines und bietet einen direkteren Zugriff auf die Lager .
Wer nutzt die Daten-Lakehouse ?
Data Engineers nutzen das Lakehouse, um Daten für Data Scientists aufzubereiten, die die Daten mit Hilfe des integrierten Data Warehouse analysieren. Datenanalysten und Bürgerdatenanalysten können das Daten-Lakehouse dank der Metadaten nutzen, die das Auffinden, den Zugriff und die Zuordnung von Datensätzen erleichtern.
Was sind die Bestandteile der Lakehouse-Plattform?
Datenspeicherung
Das Daten-Lakehouse speichert eine große Vielfalt von Datentypen. Bei den Datensätzen kann es sich um Datenbanktabellen für strukturierte und halbstrukturierte, flache, strukturierte und unstrukturierte Daten handeln.
Metadaten
Die Metadaten im Daten-Lakehouse kennzeichnen und beschreiben die verschiedenen Datensätze, um sie leichter auffindbar und nutzbar zu machen.
Daten Konnektoren
Auf die strukturierten Daten im Daten-Lakehouse kann mit einer strukturierten Anfrage (SQL) leicht zugegriffen werden. Für den Zugriff auf die halbstrukturierten, unstrukturierten und proprietären Daten sind Konnektoren wie Spark erforderlich.
Zugang zu APIs
Business intelligence (BI)-Tools für die Datenanalyse und Anwendungsprogramme benötigen Anwendungsprogrammierschnittstellen (APIs) für den Zugriff auf die im Daten-Lakehouse gespeicherten Daten. Diese können zum Beispiel SQL, REST und ODBC umfassen.
Wie lässt sich eine Daten-Lakehouse mit einem Data Mesh und einer Data Fabric vergleichen?
Data Lakes waren vor zehn Jahren eine heiße Idee. Sie erschienen als eine Weiterentwicklung des zentralisierten Unternehmensdatenlagers, da sie mehr Datentypen speichern konnten, z. B. Videos, Transkripte, große Bilder und Audiodateien. Die Unternehmen entdeckten jedoch, dass das einfache Sammeln von Daten, ohne sie angemessen zu katalogisieren, sie in eine Müllhalde für Daten verwandelte.
Das Daten-Lakehouse ist ein neuerer Ansatz, der darauf abzielt, ein besser nutzbares Lager zu schaffen als ein Daten-Lake , der die Daten profiliert und dokumentiert, um ihre Nutzung wahrscheinlicher zu machen.
Die Data Fabric sorgt dafür, dass die Daten verteilt bleiben und bietet eine einzige virtuelle, zentralisierte Nutzer mit zentralem Dateneigentum und zentraler Datenverwaltung.
Ein Datennetz verwendet eine Reihe von föderierten domänenspezifischen Datenproduktdiensten, wobei die Verwaltung und das Eigentum an den Daten auf der Ebene der Domäne liegt. Das Datengeflecht ist ein Peer-to-Peer-Modell, bei dem Domänen Daten horizontal gemeinsam nutzen.
Integrität der Daten
Die Wahrung der Datenintegrität ist wichtig, was bedeutet, dass die Daten die Eigenschaften Atomizität, Beständigkeit, isolation und Langlebigkeit (ACID) erfüllen müssen. Datenbeziehungen müssen durch die Angabe von Schlüsselwerten ausgedrückt werden, um irreführende Anfrage zu vermeiden. Änderungen an Datensätzen müssen überwacht und verwaltet werden, um die Datenintegrität aufrechtzuerhalten und eine logische Datenbeschädigung zu vermeiden.
Datenqualität und Governance
Ein wichtiger Nutzen einer soliden data governance ist die Datenqualität. Daten müssen aktuell sein und gepflegt werden, um sicherzustellen, dass Fehler korrigiert und bereinigt werden. Hochwertige Daten werden zu vertrauenswürdigen Daten.
Vorteile einer Daten-Lakehouse
Das Daten-Lakehouse hat aufgrund vieler der unten aufgeführten Vorteile an Popularität gewonnen:
- Unternehmen können das Daten-Lakehouse nutzen, um mehr Wert aus ihren vorhandenen Datenbeständen zu ziehen.
- Nutzer des Daten-Lakehouse profitieren von einer höheren Datenqualität als bei einem Daten-Lake , da die Daten profiliert werden, um Einblicke in ihren Umfang, ihre Aktualität und ihre Genauigkeit zu erhalten.
- Das Daten-Lakehouse kann data governance durchsetzen.
- Das zentrale Lager kann die Sicherheit erhöhen, indem es rollenbasierten Zugriff unterstützt.
- Ein Daten-Lakehouse ist einfacher zu verwalten und nutzt die Ressourcen effizienter als verteilte Datenspeicher.
- Die Daten-Lakehouse fördert Self-Service , indem sie einen Katalog und Metadaten bereitstellt, die den Nutzern helfen, die richtigen Datensätze für ihre Analysen zu finden.
- Die richtige Datenbanktechnologie kann den Datenzugriff im Vergleich zu einem Daten-Lake erheblich beschleunigen.
- In einem Daten-Lakehouse können, anders als in einem Daten-Lake, verschiedene Datensätze miteinander in Beziehung gesetzt werden.
- Maschinelles Lernen profitiert von einem Daten-Lakehouse insofern, als komplette Datensätze verarbeitet werden können, im Gegensatz zu Teilmengen oder Aggregationen, die in einem traditionellen Data Warehouse üblich sind.
Erstellen eines Daten-Lakehouse mit Actian
Die Actian Data Platform macht es einfach, ein Lakehouse zu erstellen, das On-Premises, auf AWS, Azure und Google Cloud bereitgestellt werden kann. Die Datenanalyse der ActianPlattform nutzt eine spaltenbasierte, vektorverarbeitende Datenbank-Engine für schnelle Abfragegeschwindigkeiten. Die Daten können dank Abfragen, die sich über Datenbankinstanzen erstrecken können, zentralisiert oder verteilt werden.
Integrierte Datenintegrationsfunktionen können Datenprofile erstellen, Datenvorbereitungsschritte automatisieren und gestreamte Datenquellen unterstützen. Die in die Actian Data Platform integrierten Funktionen umfassen einen Konnektor für den Zugriff auf unstrukturierte Daten und die Arbeit mit gängigen Datenspeicherstrukturen, einschließlich S3-Buckets, Google Drive-Ordnern und Azure Blob-Speicher.