Wie stärkt ein Datenkatalog die Prinzipien des Data Mesh?
Zusammenfassung
- Data Mesh ist kein Technologieprodukt, sondern ein dezentraler organisatorischer Ansatz zur Verwaltung von Analysedaten.
- Es basiert auf vier Grundprinzipien: Eigentumsrechte an den Daten, Daten als Produkt, selbstverwaltete Dateninfrastruktur und föderierte Governance.
- Ein Datenkatalog Data Mesh, indem er Teams eine zentrale Möglichkeit bietet, verwalten Datenprodukte zu ermitteln, zu dokumentieren und zu verwalten .
- Außerdem trägt es dazu bei, dass Datenprodukte besser auffindbar, verständlicher und vertrauenswürdiger sind und leichter zugänglich sind.
- In einem Data-Mesh-Modell wird der Katalog zu einer zentralen Ebene für die Zusammenarbeit, Metadaten und die Governance domänenübergreifend.
Einführung: Was ist Data Mesh?
Da sich die Unternehmen immer mehr der Bedeutung ihrer Daten bewusst werden, überdenken sie ihre Geschäftsstrategien, um das volle Potenzial ihrer Informationsressourcen auszuschöpfen. Die Herausforderung der Datenspeicherung hat nach und nach zur Entstehung verschiedener Lösungen geführt: Data Marts, Data Warehouses und Data Lakes, um die Aufnahme immer größerer Datenmengen zu ermöglichen. Das Ziel? Die Datenbestände zu zentralisieren, um sie einer möglichst großen Zahl von Personen zugänglich zu machen und die Unternehmenssilos aufzubrechen.
Dennoch haben Unternehmen nach wie vor Schwierigkeiten, den geschäftlichen Anforderungen gerecht zu werden. Die Geschwindigkeit der Datenerstellung und -umwandlung sowie die zunehmende Komplexität der Daten (Art, Herkunft usw.) stellen dieFähigkeiten solchen zentralisierten OrganisationFähigkeiten . Diese zentralisierten Daten entwickeln sich zu einem Informationsmeer, in dem Datenmanagement nicht mehr in der Lage sind, effektiv auf die Anforderungen des Unternehmens zu reagieren – dies gelingt nur noch wenigen Expertenteams.
Dies gilt umso mehr, wenn Unternehmen aus Fusionen oder Übernahmen hervorgegangen sind oder in Tochtergesellschaften organisiert sind. Der Aufbau einer gemeinsamen Vision und Organisation zwischen allen Einheiten kann komplex und zeitaufwendig sein.
Vor diesem Hintergrund entwickelte Zhamak Dehghani das Konzept des "Data Mesh", das einen Paradigmenwechsel bei der Verwaltung von Analysedaten mit einem dezentralen Ansatz vorschlägt.
Data Mesh ist in der Tat keine technologische Lösung, sondern vielmehr ein Geschäftsziel, ein "Nordstern", wie Mick Lévy es nennt, den es zu verfolgen gilt, um die Herausforderungen kennenlernen , denen sich Unternehmen im aktuellen Kontext gegenübersehen:
- Reagieren Sie auf die Komplexität, Unbeständigkeit und Ungewissheit des Geschäfts.
- Behalten Sie angesichts des Wachstums Ihre Flexibilität bei.
- Beschleunigen Sie die Wertschöpfung im Verhältnis zur Investition.
Wie der Datenkatalog die Umsetzung eines Data Mesh-Ansatzes erleichtert
Der Zweck eines Datenkatalog ist es, alle Daten des Unternehmens abzubilden und sie den technischen und geschäftlichen Teams zur Verfügung zu stellen, um ihre Nutzung und die Zusammenarbeit rund um ihre Verwendung zu erleichtern und so die Wertschöpfung zu maximieren und zu beschleunigen.
In einer Organisation wie Data Mesh, in der Daten an verschiedenen Orten gespeichert sind und von verschiedenen Teams verwaltet werden, besteht die Herausforderung eines Datenkatalog darin, einen zentralen Zugangspunkt zu allen Datenressourcen des Unternehmens zu gewährleisten.
Dazu muss der Datenkatalog aber die vier Grundprinzipien des Data Mesh unterstützen, die da wären
- Bereichsbezogenes Eigentum an Daten.
- Daten als Produkt.
- Datenplattform zur Selbstbedienung.
- Föderierte rechnergestützte Verwaltung.
Domäneneigentum
Das erste Prinzip von Data Mesh ist die Dezentralisierung der Verantwortlichkeiten für Daten. Das Unternehmen muss zunächst je nach Kontext und Anwendungsfällen (z. B. Produktion, Vertrieb, Logistik usw.) mehr oder weniger granulare Geschäftsbereiche definieren.
Jeder Bereich wird dann für die von ihm produzierten Daten verantwortlich. Jeder Bereich erhält Autonomie, um die wachsenden Datenmengen leichter verwalten und verwerten zu können. Die Qualität der Daten wird deutlich verbessert, indem das Fachwissen der Unternehmen so nah wie möglich an der Quelle genutzt wird.
Dieser Ansatz stellt die Relevanz eines zentralisierten Datenmanagement in Frage, das ein einziges Modell der Daten bietet, das zwar umfassend ist, aber folglich für die Datenkonsumenten kompliziert zu verstehen und im Laufe der Zeit schwer zu pflegen ist.
Mit Hilfe des Datenkatalog können die Unternehmensteams ein Inventar ihrer Daten erstellen und ihre Geschäftsbereiche anhand eines Modells beschreiben, das sich an den spezifischen Verwendungszwecken der einzelnen Bereiche orientiert.
Diese Modellierung muss über ein Geschäftsglossar zugänglich sein, das dem Datenkatalog zugeordnet ist. Dieses Geschäftsglossar muss, während es eine zentrale Datenquelle bleibt, ermöglichen, dass die verschiedenen Facetten der Daten entsprechend den Verwendungszwecken und Anforderungen der jeweiligen Domäne abgebildet werden.
Wenn beispielsweise der Begriff „Produkt“ im gesamten Unternehmen geläufig ist, sind seine Eigenschaften nicht für alle Bereiche gleichermaßen von Interesse, je nachdem, ob er in der Logistik, im Design oder im Vertrieb verwendet wird.
Ein grafisch aufgebautes Geschäftsglossar daher aufgrund seiner Flexibilität und die Modellierungs- und Er Fähigkeitenungsmöglichkeiten , die es im Vergleich zu einem vordefinierten hierarchischen Ansatz bietet. Ein graphbasiertes Geschäftsglossar gewährleistet die unternehmensweite Beständigkeit semantischen Ebene und Geschäftsglossar Datenmanagern gleichzeitig, die Besonderheiten ihrer jeweiligen Fachbereiche besser zu berücksichtigen.
Der Datenkatalog muss es daher den verschiedenen Bereichen ermöglichen, bei der Definition und Pflege des Metamodells und der Dokumentation ihrer Bestände zusammenzuarbeiten, um deren Qualität zu gewährleisten.
Dazu Datenkatalog der Datenkatalog auch über ein geeignetes Berechtigungsmanagementsystem verfügen, damit die Zuständigkeiten eindeutig verteilt werden können und jeder Bereichsverantwortliche die Dokumentation seines Zuständigkeitsbereichs übernehmen kann.
Daten als Produkt
Das zweite Prinzip des Data Mesh ist es, Daten nicht als Vermögenswert, sondern als Produkt zu betrachten. Produkt mit eigener Nutzer und eigenem Lebenszyklus. Damit soll vermieden werden, dass durch die Dezentralisierung von Verantwortlichkeiten neue Silos im Unternehmen entstehen.
Jeder Bereich ist dafür verantwortlich, anderen Bereichen ein oder mehrere Datenprodukte zur Verfügung zu stellen. Über dieses Unternehmensziel hinaus ermöglicht uns die Betrachtung von Daten als Produkt einen Ansatz, , der sich an den Erwartungen und Bedürfnissen der Endnutzer orientiert: Wer sind diejenigen, die Daten nutzen? In welchem Format bzw. welchen Formaten nutzen die Anwender die Daten? Mit welchen Tools? Wie können wir Nutzer messen?
Bei einem zentralisierten Ansatz reagieren die Unternehmen auf die Bedürfnisse der Geschäftsanwender und skalieren langsamer. Data Mesh wird daher zur Verbreitung der Datenkultur beitragen, indem es die Schritte reduziert, die zur Nutzung der Daten erforderlich sind.
Laut Zhamak Dehghani sollte ein Datenprodukt verschiedene Kriterien erfüllen, und der Datenkatalog es, einige davon zu erfüllen:
Auffindbarkeit: Der erste Schritt für einen Datenanalysten, Data-Scientist oder jeden anderen Datennutzer besteht darin, zu wissen, welche Daten vorhanden sind und welche Erkenntnisse daraus gewonnen werden können. Der Datenkatalog dieses Problem durch eine intelligente Suchmaschine, die die Suche nach Stichwörtern, Tipp- oder Syntaxfehlern, intelligente Vorschläge und erweiterte Fähigkeiten ermöglicht. Der Datenkatalog zudem personalisierte Erkundungspfade bieten, um die verschiedenen Datenprodukte besser zu bewerben. Schließlich muss die Such- und Navigationserfahrung im Katalog einfach sein und auf Marktstandards wie Google oder Amazon basieren, um die Einarbeitung nicht-technischer Nutzer zu erleichtern.
Verständlich: Daten müssen leicht verständlich und konsumierbar sein. Dies ist auch eine der Aufgaben des Datenkatalog: die Bereitstellung des gesamten Kontexts, der zum Verständnis der Daten erforderlich ist. Dazu gehören eine Beschreibung, zugehörige Geschäftskonzepte, Klassifizierung, Beziehungen zu anderen Datenprodukten usw. Die Geschäftsbereiche können den Datenkatalog nutzen, um den Verbrauchern das Verständnis ihrer Datenprodukte so weit wie möglich zu erleichtern. Ein Plus wäre die Integration mit Datentools oder Sandboxen, um das Verhalten der Daten besser zu verstehen.
Vertrauenswürdig: Verbraucher müssen den von ihnen genutzten Daten vertrauen können. Auch hier Datenkatalog der Datenkatalog eine wichtige Rolle spielen. Ein Datenkatalog kein Tool zur Datenqualitätssicherung, aber die Qualitätsindikatoren müssen im Datenkatalog automatisch abgerufen und aktualisiert werden können Datenkatalog sie den Nutzern zugänglich zu machen (Vollständigkeit, Aktualisierungshäufigkeit usw.). Der Datenkatalog zudem in der Lage sein, statistische Informationen zu den Daten bereitzustellen oder die Datenherkunft nachzuverfolgen, um die Herkunft und die verschiedenen Transformationen im Laufe der Zeit nachzuvollziehen.
Natürlicher Zugang: Ein Datenprodukt sollte in dem Format bereitgestellt werden, das von den verschiedenen Personas (Datenanalysten, Datenwissenschaftler usw.) erwartet wird. Ein und dasselbe Datenprodukt kann daher in verschiedenen Formaten bereitgestellt werden, je nach den Verwendungszwecken und Fähigkeiten der Zielnutzer. Es sollte auch leicht mit den von ihnen verwendeten Tools zu verbinden sein. In diesem Punkt spielt der Katalog jedoch keine besondere Rolle.
Wertvoll: Einer der Schlüssel zum Erfolg eines Datenprodukts ist, dass es unabhängig konsumiert werden kann, dass es für sich genommen sinnvoll ist. Es muss so konzipiert sein, dass es nur in geringem Maße mit anderen Datenprodukten verknüpft werden muss, um den Verbrauchern einen messbaren Wert zu bieten.
Zugänglich: Sobald der Nutzer das benötigte Datenprodukt im Katalog gefunden hat, muss er auf einfache, unkomplizierte und effiziente Weise darauf zugreifen oder den Zugriff darauf beantragen können. Dazu Datenkatalog der Datenkatalog mit Systemen zur Durchsetzung von Richtlinien verbunden sein, die den Zugriff auf die Daten erleichtern und beschleunigen, indem sie einen Teil der Arbeit automatisieren.
Sicher: Dieser Punkt hängt mit dem vorhergehenden zusammen. Die Benutzer müssen in der Lage sein, einfach, aber sicher auf die Daten zuzugreifen, und zwar gemäß den für die Zugriffsrechte festgelegten Richtlinien. Auch hier erleichtert die Integration des Datenkatalog mit einer Lösung zur Durchsetzung von Richtlinien diesen Aspekt.
Interoperabel: Um den Austausch zwischen Domänen zu erleichtern und wiederum Silos zu vermeiden, müssen Datenprodukte die auf Unternehmensebene definierten Standards kennenlernen , um jede Art von Datenprodukt einfach zu konsumieren und miteinander zu integrieren. Der Datenkatalog muss in der Lage sein, die Metadaten des Datenprodukts zu teilen, um Domänen über APIs miteinander zu verbinden.
Dateninfrastruktur zur Selbstbedienung
In einer Data Mesh-Organisation sind die Geschäftsbereiche dafür verantwortlich, Datenprodukte für das gesamte Unternehmen verfügbar zu machen. Um dieses Ziel zu erreichen, müssen die Bereiche jedoch über Dienste verfügen, die diese Implementierung erleichtern und die Verwaltungsaufgaben so weit wie möglich automatisieren: Diese Dienste müssen die Domänen so unabhängig wie möglich von den Infrastrukturteams machen.
In einer dezentralisierten Organisation wird diese Serviceschicht auch dazu beitragen, die Kosten zu senken, insbesondere die Kosten, die mit der Workload von Dateningenieuren verbunden sind; Ressourcen, die schwer zu finden sind.
Der Datenkatalog Teil dieser Abstraktionsschicht und ermöglicht es den Fachbereichen, die Datenquellen, für die sie verantwortlich sind, auf einfache Weise zu erfassen. Dazu muss der Katalog selbst eine breite Palette an Konnektoren bieten, die die verschiedenen von den Fachbereichen eingesetzten Technologien (Speicherung, Transformation usw.) unterstützen und Kurationsaufgaben so weit wie möglich automatisieren.
Über einfach zu bedienende APIs ermöglicht der Datenkatalog den Domains auch die einfache Synchronisation ihrer geschäftlichen oder technischen Repositories, die Anbindung ihrer Qualitätsmanagement-Tools usw.
Föderierte rechnergestützte Verwaltung
Data Mesh bietet einen dezentralen Ansatz für Datenmanagement einzelne Domänen ein gewisses Maß an Autonomie erhalten. Die Umsetzung einer föderierten Governance gewährleistet jedoch die globale Beständigkeit Governance-Regeln, die Interoperabilität der Datenprodukte sowie die Überwachung auf der Ebene des Data Mesh.
Das Data Office fungiert eher als Vermittler, der Governance-Grundsätze und -Richtlinien weitergibt, als als Kontrollinstanz. Tatsächlich ist der CDO nicht mehr für Qualität oder Sicherheit zuständig, sondern dafür zuständig, zu definieren, was unter Qualität, Sicherheit usw. zu verstehen ist. Die Bereichsleiter übernehmen vor Ort die Umsetzung dieser Grundsätze.
Dieser Paradigmenwechsel wird durch die Automatisierung der Anwendung von Governance-Richtlinien ermöglicht. Die Anwendung dieser Richtlinien wird somit im Vergleich zu einem zentralisierten Ansatz beschleunigt, da sie so nah an der Quelle wie möglich erfolgt.
Der Datenkatalog dazu genutzt werden, Governance-Grundsätze und -Richtlinien zu teilen, die im Katalog dokumentiert oder aufgelistet und mit den Datenprodukten verknüpft werden können, für die sie gelten. Außerdem stellt er Metadaten die Systeme bereit, die für die automatisierte Einrichtung der Regeln und Richtlinien zuständig sind.
Schlussfolgerung
In einer zunehmend komplexen und sich verändernden Datenumgebung bietet Data Mesh eine alternative sozio-architektonische Antwort auf zentralisierte Ansätze, die nur schwer skalierbar sind und die Geschäftsanforderungen an Datenqualität und Reaktionsfähigkeit kennenlernen .
Der Datenkatalog in dieser Organisation eine zentrale Rolle: Er dient als zentrales Zugangsportal für die Erfassung und gemeinsame Nutzung von Datenprodukten im gesamten Unternehmen und ermöglicht es den Geschäftsbereichen, verwalten Datenprodukte einfach zu verwalten und die Metadaten bereitzustellen, Metadaten Automatisierung der für eine föderierte Governance erforderlichen Richtlinien erforderlich sind.