Data Vault

Eine Gruppe von Fachleuten diskutiert in einem modernen Büro an einem Laptop über Strategien data vault .

Ein data vault ist eine Methodik zur Organisation von Analysedaten, die die Speicherung von Rohdaten, Geschäftsregeln zur Unterstützung der Rohdatenumwandlung und multiple data Marts umfasst. Die data vault behebt die inhärenten Unzulänglichkeiten von Alternativen, einschließlich3rd Normal Form, Enterprise Data Warehouses und Dimensional Design-Ansätzen.

Ein data vault verwendet eine bestimmte Struktur, die sich um drei Hauptelemente dreht: Hubs, Links und Satelliten. Im Folgenden finden Sie eine Aufschlüsselung der einzelnen Elemente:

Knotenpunkte: In diesen Tabellen werden zentrale Geschäftseinheiten wie Kunden, Produkte oder Standorte gespeichert. Sie enthalten einen eindeutigen Bezeichner (Geschäftsschlüssel) und minimale beschreibende Attribute, die sich wahrscheinlich nicht häufig ändern werden.

Verbindungen: Diese Tabellen stellen die Beziehungen zwischen Hubs dar. Sie enthalten Fremdschlüssel, die auf die Geschäftsschlüssel der verbundenen Hubs verweisen. Verknüpfungen liefern den Kontext dafür, wie Entitäten miteinander verbunden sind.

Satelliten: Diese Tabellen enthalten detaillierte Daten zu den Knotenpunkten oder Verbindungen. Sie enthalten verschiedene beschreibende Attribute, die sich im Laufe der Zeit ändern können. Wichtig ist, dass Satelliten auch Metadaten wie die Quelle der Daten und das Ladedatum enthalten, was eine historische Verfolgung ermöglicht.

Warum ist ein Data Vault wichtig?

Der data vault bietet einen flexibleren Ansatz für das Data Warehousing als die traditionelle3NF (3rd Normal Form) und das Dimensional Design, da die ursprünglichen Rohdaten beibehalten werden, so dass Änderungen im Laufe der Zeit leicht überprüft werden können. Der Business Rules Vault speichert alle Transformationen, Filter oder Berechnungen, die leicht geändert oder erweitert werden können, und die Data Marts sind einfach Ansichten und einige optionale Tabellen, die leicht zu ändern sind.

Die Struktur des data vault ermöglicht es einem Unternehmen, mit einer kleinen Anzahl von Rohdatensätzen zu beginnen und diese schrittweise zu erweitern, wenn die geschäftlichen Anforderungen steigen. Die sofortige Verfügbarkeit des data vault macht die Datenherkunft klar. Insgesamt ist dieser Ansatz besser geeignet, wenn sich die Geschäftsziele häufig ändern und Sie eine integrierte Versionskontrolle benötigen.

Die Vorteile eines Data Vault

Data vault bieten mehrere Vorteile gegenüber herkömmlichen Data Warehouse-Konzepten:.

Flexibilität

Die Struktur eines data vaultist so konzipiert, dass sie anpassbar ist. Neue Datenquellen und -felder lassen sich leicht einbinden, ohne das bestehende Modell zu beeinträchtigen, im Gegensatz zu herkömmlichen dimensionalen Modellen, die bei Änderungen ein erhebliches Refactoring erfordern.

Skalierbarkeit

Datentresore sind für die Bewältigung wachsender Datenmengen ausgelegt. Ihr modularer Aufbau ermöglicht eine einfache Erweiterung bei steigendem Datenspeicherbedarf.

Datenherkunft

Datentresore zeichnen sich dadurch aus, dass sie die Historie Ihrer Daten verfolgen. Jede Aufzeichnung wird aufbewahrt, mit Markierungen, die Änderungen im Laufe der Zeit anzeigen. Dies ist entscheidend für die Einhaltung von Vorschriften und für Prüfungszwecke.

Schnelleres Laden

Data vault ermöglichen oft das parallele Laden von Daten, da keine komplexen Beziehungen zwischen den Tabellen bestehen. Dies kann die Geschwindigkeit Dateneingang erheblich verbessern.

Vereinfachte ETL-Prozesse

Da der data vault keine Vormodellierung der Daten erfordert, wird derETL-Prozess (Extrahieren, Transformieren, Laden) rationalisiert. Dies reduziert die Entwicklungszeit und den Wartungsaufwand.

Die Actian Datenplattform und der Data Vault

Die Actian Data Platform kann ein data vault Schema mit einem Lager zur Speicherung von Rohdaten mit minimaler Formatierung, einen zweiten Satz von Tabellen mit den Geschäftsregeln mit Lineage-Daten und multiple data Marts mit Ansichten und Tabellen zur Analyse des Nutzer hosten. Die Vector Columnar Database bietet SQL-Funktionen, um Filter und Transformationen auf Rohdatentabellen anzuwenden. Diese Funktionalität ähnelt der Verwendung von ELT (extract, Load and Transform) Funktionen.

Die daraus resultierenden Data Marts können mit business intelligence verknüpft werden, um die Analyse und Visualisierung von Daten zu erleichtern. Die Vector-Datenbank ermöglicht High-Performance dank Funktionen wie vektorisierte parallele Abfragen, die die Beschleunigung auf Chipebene nutzen, um Multi-Threading über mehrere Kerne und Caching über mehrere Prozessoren hinweg zu ermöglichen.