Was ist eine Daten-Lakehouse und warum ist sie wichtig?
Wenn man alle Datensätze in einem einzigen Lager ohne angemessene Beschreibungen speichert, verwandelt sich dieses schnell in einen ungenutzten Datensumpf. Datensätze benötigen beschreibende Informationen wie Metadaten , die es den Benutzern ermöglichen, Daten zu finden, zu nutzen und ihnen schließlich zu vertrauen. Die Pflege von Data Lakes und Data Warehouses in Silos ist ineffizient, da die Daten zur Analyse in das Data Warehouse verschoben werden müssen. Die Kombination der beiden unterschiedlichen Funktionen in einer einheitlichen Daten-Lakehouse strafft die Datenpipelines und bietet einen direkteren Zugriff auf die Lager .
Wer nutzt die Daten-Lakehouse ?
Data Engineers nutzen das Lakehouse, um Daten für Data Scientists aufzubereiten, die die Daten mit Hilfe des integrierten Data Warehouse analysieren. Datenanalysten und Bürgerdatenanalysten können das Daten-Lakehouse dank der Metadaten nutzen, die das Auffinden, den Zugriff und die Zuordnung von Datensätzen erleichtern.
Was sind die Bestandteile der Lakehouse-Plattform?
Datenspeicherung
Das Daten-Lakehouse speichert eine große Vielfalt von Datentypen. Bei den Datensätzen kann es sich um Datenbanktabellen für strukturierte und halbstrukturierte, flache, strukturierte und unstrukturierte Daten handeln.
Metadaten
Die Metadaten im Daten-Lakehouse kennzeichnen und beschreiben die verschiedenen Datensätze, um sie leichter auffindbar und nutzbar zu machen.
Daten Konnektoren
Die strukturierten Daten im Daten-Lakehouse sind mit einer strukturierten abfragen (SQL) leicht zugänglich. Für den Zugriff auf die halbstrukturierten, unstrukturierten und proprietären Daten sind Konnektoren wie Spark erforderlich.
Zugang zu APIs
Business Intelligence (BI)-Tools für die Datenanalyse und Anwendungsprogramme benötigen Anwendungsprogrammierschnittstellen (APIs) für den Zugriff auf die im Daten-Lakehouse gespeicherten Daten. Dazu gehören zum Beispiel SQL, REST und ODBC.
Wie lässt sich eine Daten-Lakehouse mit einem Data Mesh und einer Data Fabric vergleichen?
Data Lakes waren vor zehn Jahren eine heiße Idee. Sie erschienen als eine Weiterentwicklung des zentralisierten Unternehmensdatenlagers, da sie mehr Datentypen speichern konnten, z. B. Videos, Transkripte, große Bilder und Audiodateien. Die Unternehmen entdeckten jedoch, dass das einfache Sammeln von Daten, ohne sie angemessen zu katalogisieren, sie in eine Müllhalde für Daten verwandelte.
Das Daten-Lakehouse ist ein neuerer Ansatz, der darauf abzielt, ein besser nutzbares Lager zu schaffen als ein Daten-Lake , der die Daten profiliert und dokumentiert, um ihre Nutzung wahrscheinlicher zu machen.
Die Data Fabric sorgt dafür, dass die Daten verteilt bleiben und bietet eine einzige virtuelle, zentralisierte Nutzer mit zentralem Dateneigentum und zentraler Datenverwaltung.
Ein Datennetz verwendet eine Reihe von föderierten domänenspezifischen Datenproduktdiensten, wobei die Verwaltung und das Eigentum an den Daten auf der Ebene der Domäne liegt. Das Datengeflecht ist ein Peer-to-Peer-Modell, bei dem Domänen Daten horizontal gemeinsam nutzen.
Integrität der Daten
Die Wahrung der Datenintegrität ist wichtig, was bedeutet, dass die Daten die Eigenschaften Atomizität, Beständigkeit, isolation und Langlebigkeit (ACID) erfüllen müssen. Datenbeziehungen müssen durch die Angabe von Schlüsselwerten ausgedrückt werden, um irreführende abfragen zu vermeiden. Änderungen an Datensätzen müssen überwacht und verwaltet werden, um die Datenintegrität aufrechtzuerhalten und logische Datenbeschädigungen zu vermeiden.
Datenqualität und Governance
Ein wichtiger Nutzen einer soliden Data Governance ist die Datenqualität. Daten müssen aktuell sein und gepflegt werden, um sicherzustellen, dass Fehler korrigiert und bereinigt werden. Hochwertige Daten werden zu vertrauenswürdigen Daten.
Vorteile einer Daten-Lakehouse
Das Daten-Lakehouse hat aufgrund vieler der unten aufgeführten Vorteile an Popularität gewonnen:
- Unternehmen können das Daten-Lakehouse nutzen, um mehr Wert aus ihren vorhandenen Datenbeständen zu ziehen.
- Nutzer des Daten-Lakehouse profitieren von einer höheren Datenqualität als bei einem Daten-Lake , da die Daten profiliert werden, um Einblicke in ihren Umfang, ihre Aktualität und ihre Genauigkeit zu erhalten.
- Das Daten-Lakehouse kann Data Governance durchsetzen.
- Das zentrale Lager kann die Sicherheit erhöhen, indem es rollenbasierten Zugriff unterstützt.
- Ein Daten-Lakehouse ist einfacher zu verwalten und nutzt die Ressourcen effizienter als verteilte Datenspeicher.
- Die Daten-Lakehouse fördert Self-Service , indem sie einen Katalog und Metadaten bereitstellt, die den Nutzern helfen, die richtigen Datensätze für ihre Analysen zu finden.
- Die richtige Datenbanktechnologie kann den Datenzugriff im Vergleich zu einem Daten-Lake erheblich beschleunigen.
- In einem Daten-Lakehouse können, anders als in einem Daten-Lake, verschiedene Datensätze miteinander in Beziehung gesetzt werden.
- Maschinelles Lernen profitiert von einem Daten-Lakehouse insofern, als komplette Datensätze verarbeitet werden können, im Gegensatz zu Teilmengen oder Aggregationen, die in einem traditionellen Data Warehouse üblich sind.
Actian und die Data Intelligence Plattform
Die Actian Data Intelligence Platform wurde speziell dafür entwickelt, Unternehmen bei der Vereinheitlichung, verwalten und dem Verständnis ihrer Daten in hybriden Umgebungen zu unterstützen. Sie vereint Metadaten , Governance, Lineage, Qualitätsüberwachung und Automatisierung in einer einzigen Plattform. So können Teams sehen, woher die Daten kommen, wie sie verwendet werden und ob sie internen und externen Anforderungen entsprechen.
Durch seine zentrale Schnittstelle unterstützt Actian Erkenntnis über Datenstrukturen und -flüsse und erleichtert so die Anwendung von Richtlinien, die Lösung von Problemen und die abteilungsübergreifende Zusammenarbeit. Die Plattform hilft auch dabei, Daten mit dem geschäftlichen Kontext zu verbinden, damit Teams Daten effektiver und verantwortungsvoller nutzen können. Die Plattform von Actian ist so konzipiert, dass sie mit sich entwickelnden Datenökosystemen skaliert und eine konsistente, intelligente und sichere Datennutzung im gesamten Unternehmen unterstützt. Fordern Sie Ihr persönliches Demo an.