Ein Data Mesh („Datennetz“) ist eine Architektur zur Umsetzung der Demokratisierung von Daten in einem Unternehmen. Im Gegensatz zu zentralisierten Daten-Warehouses föderiert Data Mesh Daten und delegiert das Dateneigentum an Fachbereiche, die ihre Daten als Dienst veröffentlichen, damit alle Geschäftsfunktionen sie nutzen können. So ensteht eine flexiblere Datenarchitektur, die den einzelnen Geschäftsbereichen eine gewisse Autonomie bei der Verwaltung ihrer wichtigsten Datenbestände ermöglicht.
Warum eine Data-Mesh-Architektur?
Der Grundgedanke von Mesh-Architekturen besteht darin, eine flexiblere und skalierbar Datenarchitektur zu ermöglichen. Monolithische, zentralisierte Unternehmens-Data-Warehouses können schwerfällig in der Implementierung, unflexibel und teuer in der Änderung sein. Durch die Verlagerung der Pflege und Verwaltung bereichsspezifischer Datensätze auf die Geschäftsfunktionen, die sie am besten kennen, kann sich das Unternehmen besser an veränderte Geschäftsbedingungen anpassen.
Einer der Hauptgründe für die Skalierbarkeit des Data-Mesh-Modells ist, dass es einer Überlastung zentralisierter Datenteams vorbeugt. Dies wird durch die Verbreitung von standardisierten Best-Practices in allen Geschäftsbereichen erreicht. Fachkräftemangel ist eine häufige Ursache dafür, dass Big-Data- und Data-Lake-Projekte zu Datensümpfen stagnieren. Die von Mitarbeitern eines Geschäftsbereichs erworbenen Fähigkeiten lassen sich leicht auf andere Bereiche übertragen, wodurch Schulungszeiten verkürzt und Projekte schneller umgesetzt werden können.
Aufrechterhaltung der Interoperabilität zwischen Datenpools
Eine Kernkomponente eines Data Mesh ist der integrierte universelle Interoperabilitätsbus, an den alle bereichsspezifischen Daten-Warehouses oder Datamarts angeschlossen werden. Dadurch werden die Probleme herkömmlicher siloartiger Datamarts vermieden, die häufig doppelte, nicht synchronisierte Daten und Ad-hoc-Tools verwenden. Kuratierte Daten, die sich in einer Abteilung befinden, sind für verwandte Geschäftsbereiche verfügbar. Jedes Daten-Warehouse einer Abteilung veröffentlicht seine Daten als Produkt auf dem Interoperabilitätsbus.
Wie unterscheiden sich Data Mesh und Data Fabric?
Ein Data Mesh besteht aus einer Reihe miteinander verbundener bereichsspezifischer Datenproduktdienste, deren Eigentumsrechte an die verschiedenen Bereiche eines Unternehmens delegiert werden. Durch die Data-Mesh-Struktur entsteht ein einziges virtuelles zentralisiertes System ohne verteilten Datenbesitz.
Zentrale Bausteine eines Data Mesh
Die Hauptbestandteile eines Data Mesh sind:
- Datenquellen.
- Dateninfrastruktur.
- Domänenspezifische Daten-as-a-Service.
- Gemeinsame, standardisierte Konventionen für Governance, Datenqualität und Metadaten.
Dateneigentum und Zuständigkeiten
Jeder Dateneigner einer Domäne ist mit den Service-Levels für Datenqualität und -verfügbarkeit seiner Kollegen einverstanden. Jede Domäne verwendet zentralisierte Standards für Datenpipelines. Data Mesh bietet eine standardisierte Speicher- und Streaming-Infrastruktur. ETL-Pipelines können bereichsspezifisch sein, müssen aber Standard-Metadaten-Labels, Datenformate, Katalogisierung, Lineage und Data-Governance-Konventionen verwenden, um die Interoperabilität zu erleichtern und die Einhaltung von Vorschriften zu fördern.
Vorteile
Einige der zahlreichen Vorteile von Data-Mesh-Architekturen:
- Schnellere Wertschöpfung bei datenorientierten Projekten.
- Die Geschäftsbereiche können schnell auf Wettbewerbs-, Regulierungs- und Marktdruck reagieren oder neue Märkte erschließen.
- Gemeinsame Tools, Standards und Prozesse kommen dem gesamten Unternehmen zugute, da sie die Effizienz steigern, indem sie doppelte Arbeit verringern.
- Vermeidung zentraler Ressourcenengpässe durch Delegation der Datenverantwortung an spezialisierte Geschäftsbereiche, die ihre Datenanforderungen am besten verstehen.
- Stärker modulare Datendienste sind einfacher zu verstehen und zu nutzen. Wie bei Microservices erleichtert die Refaktorierung monolithischer Anwendungen in kleinere, leichter verarbeitbare Komponenten die gemeinsame Nutzung und Verwendung.
- Die konsequente Anwendung von Datenqualitäts- und Data-Governance-Anforderungen in einem Unternehmen verbessert die Zusammenarbeit und erleichtert zuküftige Datenintegrationsvorhaben.
- Daten- und Prozesstransparenz im Data Mesh beseitigen abteilungsspezifische Pools mit unverbundenen Datensilos.
- Unternehmen können einen größeren Nutzen aus ihren Daten ziehen, da die Zusammenführung der Daten im gesamten Unternehmen eine bessere datengestützte Entscheidungsfindung ermöglicht.
Was sind die Merkmale eines erfolgreichen Datenprodukts?
Der wichtigste Erfolgsfaktor für ein Datenprodukt ist Akzeptanz. Zu den akzeptanzfördernden Merkmalen gehören Auffindbarkeit, Zuverlässigkeit, Vertrauenswürdigkeit, Sicherheit und Datenqualität.
Da es sich bei Data Mesh im Wesentlichen um ein Self-Service-Modell handelt, müssen die veröffentlichten Daten leicht zu finden, gut dokumentiert und einfach zu nutzen sein. Die Nutzer können den Besitzern einer Domäne Feedback zur Qualität und zum Nutzen eines Datenprodukts geben. Dadurch wird sichergestellt, dass Mängel behoben werden und kontinuierlich an Verbeserungen gearbeitet werden kann.
Data-Mesh-Verwaltung
Datenprodukte und Pipelines müssen auf Domänen- und Infrastrukturebene überwacht werden, damit eine hohe Verfügbarkeit gewährleistet ist und Ausfälle behoben werden können. Überwachungs- und Beobachtungsfunktionen sind daher so konzipiert, dass sie Entwicklern und Infrastrukturteams die Arbeit erleichtern.
Datenprodukte sollten durch Verschlüsselung der Daten im Ruhezustand und bei der Übertragung geschützt werden. Die Versionierung von Datendiensten ermöglicht die Rückgängigmachung von Fehlentwicklungen.
Actian unterstützt Datamarts
Die Actian Data Platform kann mehrere Datamarts und Warehouses unterstützen, die On-Premises oder auf verschiedenen Cloud-Plattformen gehostet werden. Actian verfügt über integrierte Konnektoren zu Hunderten von vorgefertigten Konnektorquellen, darunter NetSuite, Salesforce und ServiceNow. Die Actian Datenplattform verwendet eine vektorisierte spaltenorientierte Datenbank, die Alternativen um das 7,9-fache übertrifft und ideal für die Bereitstellung von Daten ist, bevor sie als Datenprodukt innerhalb einer Domain veröffentlicht wird.
Die drei Komponenten eines Datenprodukts
Code
einschließlich Datenpipelines, Richtlinien und Anwendungsschnittstellen.
Daten und Metadaten
können Tabellen, Ansichten, Diagramme und zugehörige Metadaten enthalten.
Infrastruktur
enthält Skripte zur Erstellung und Instanziierung eines Datenproduktdienstes.