Data Intelligence

Wie stärkt ein Datenkatalog die Prinzipien des Data Mesh?

Actian Germany GmbH

November 2, 2022

Einführung: Was ist Data Mesh?

Da sich die Unternehmen immer mehr der Bedeutung ihrer Daten bewusst werden, überdenken sie ihre Geschäftsstrategien, um das volle Potenzial ihrer Informationsressourcen auszuschöpfen. Die Herausforderung der Datenspeicherung hat nach und nach zur Entstehung verschiedener Lösungen geführt: Data Marts, Data Warehouses und Data Lakes, um die Aufnahme immer größerer Datenmengen zu ermöglichen. Das Ziel? Die Datenbestände zu zentralisieren, um sie einer möglichst großen Zahl von Personen zugänglich zu machen und die Unternehmenssilos aufzubrechen.

Die Unternehmen haben jedoch nach wie vor Schwierigkeiten, den Geschäftsanforderungen gerecht zu werden. Die Geschwindigkeit der Datenproduktion, -umwandlung und die wachsende Komplexität der Daten (Art, Herkunft, etc.) überfordern dieFunktionen einer solchen zentralisierten Organisation. Diese zentralisierten Daten entwickeln sich zu einem Ozean von Informationen, in dem die Datenmanagement nicht mehr effektiv auf die Anforderungen des Unternehmens reagieren können und nur noch wenige Expertenteams dies können.

Dies gilt umso mehr, wenn Unternehmen aus Fusionen oder Übernahmen hervorgegangen sind oder in Tochtergesellschaften organisiert sind. Der Aufbau einer gemeinsamen Vision und Organisation zwischen allen Einheiten kann komplex und zeitaufwendig sein.

Vor diesem Hintergrund entwickelte Zhamak Dehghani das Konzept des "Data Mesh", das einen Paradigmenwechsel bei der Verwaltung von Analysedaten mit einem dezentralen Ansatz vorschlägt.

Data Mesh ist in der Tat keine technologische Lösung, sondern vielmehr ein Geschäftsziel, ein "Nordstern", wie Mick Lévy es nennt, den es zu verfolgen gilt, um die Herausforderungen kennenlernen , denen sich Unternehmen im aktuellen Kontext gegenübersehen:

  • Reagieren Sie auf die Komplexität, Unbeständigkeit und Ungewissheit des Geschäfts.
  • Behalten Sie angesichts des Wachstums Ihre Flexibilität bei.
  • Beschleunigen Sie die Wertschöpfung im Verhältnis zur Investition.

Wie der Datenkatalog die Umsetzung eines Data Mesh-Ansatzes erleichtert

Der Zweck eines Datenkatalog besteht darin, alle Daten des Unternehmens abzubilden und sie den technischen und geschäftlichen Teams zur Verfügung zu stellen, um ihre Nutzung und die Zusammenarbeit bei ihrer Verwendung zu erleichtern und so die Wertschöpfung zu maximieren und zu beschleunigen.

In einer Organisation wie Data Mesh, in der Daten an verschiedenen Orten gespeichert sind und von verschiedenen Teams verwaltet werden, besteht die Herausforderung eines Datenkatalog darin, einen zentralen Zugangspunkt zu allen Datenressourcen des Unternehmens zu gewährleisten.

Dazu muss der Datenkatalog aber die vier Grundprinzipien des Data Mesh unterstützen, die da wären

  • Bereichsbezogenes Eigentum an Daten.
  • Daten als Produkt.
  • Datenplattform zur Selbstbedienung.
  • Föderierte rechnergestützte Verwaltung.

Domäneneigentum

Das erste Prinzip von Data Mesh ist die Dezentralisierung der Verantwortlichkeiten für Daten. Das Unternehmen muss zunächst je nach Kontext und Anwendungsfällen (z. B. Produktion, Vertrieb, Logistik usw.) mehr oder weniger granulare Geschäftsbereiche definieren.

Jeder Bereich wird dann für die von ihm produzierten Daten verantwortlich. Jeder Bereich erhält Autonomie, um die wachsenden Datenmengen leichter verwalten und verwerten zu können. Die Qualität der Daten wird deutlich verbessert, indem das Fachwissen der Unternehmen so nah wie möglich an der Quelle genutzt wird.

Dieser Ansatz stellt die Relevanz eines zentralisierten Datenmanagement in Frage, das ein einziges Modell der Daten bietet, das zwar umfassend ist, aber folglich für die Datenkonsumenten kompliziert zu verstehen und im Laufe der Zeit schwer zu pflegen ist.

Mit Hilfe des Datenkatalog können die Unternehmensteams ein Inventar ihrer Daten erstellen und ihre Geschäftsbereiche anhand eines Modells beschreiben, das sich an den spezifischen Verwendungszwecken der einzelnen Bereiche orientiert.

Diese Modellierung muss über ein Geschäftsglossar zugänglich sein, das mit dem Datenkatalog verbunden ist. Dieses Geschäftsglossar muss eine einzige Quelle der Wahrheit bleiben, aber die verschiedenen Facetten der Daten entsprechend den Verwendungszwecken und Bedürfnissen der einzelnen Bereiche widerspiegeln können.

Wenn beispielsweise der Begriff "Produkt" im gesamten Unternehmen bekannt ist, sind seine Eigenschaften nicht von gleichem Interesse, wenn er für die Logistik, das Design oder den Vertrieb verwendet wird.

Ein graphenbasiertes Wirtschaftsglossar ist daher aufgrund seiner Flexibilität und seiner Modellierungs- und Funktionen die es im Vergleich zu einem vordefinierten hierarchischen Ansatz bietet. Ein graphenbasiertes Geschäftsglossar gewährleistet die allgemeine Beständigkeit dieser semantischen Schicht im gesamten Unternehmen und ermöglicht es den Datenmanagern, die Besonderheiten ihrer jeweiligen Domänen besser zu berücksichtigen.

Der Datenkatalog muss es daher den verschiedenen Bereichen ermöglichen, bei der Definition und Pflege des Metamodells und der Dokumentation ihrer Bestände zusammenzuarbeiten, um deren Qualität zu gewährleisten.

Dazu muss der Datenkatalog auch ein geeignetes Berechtigungsmanagement bieten, damit die Zuständigkeiten eindeutig verteilt werden können und jeder Bereichsleiter die Dokumentation seines Bereichs selbst in die Hand nehmen kann.

Daten als Produkt

Das zweite Prinzip des Data Mesh ist es, Daten nicht als Vermögenswert, sondern als Produkt zu betrachten. Produkt mit eigener Nutzer und eigenem Lebenszyklus. Damit soll vermieden werden, dass durch die Dezentralisierung von Verantwortlichkeiten neue Silos im Unternehmen entstehen.

Jeder Bereich ist dafür verantwortlich, ein oder mehrere Datenprodukte für andere Bereiche zur Verfügung zu stellen. Aber über dieses Unternehmensziel hinaus ermöglicht uns die Betrachtung von Daten als Produkt einen Ansatz, der der sich an den Erwartungen und Bedürfnissen der Endnutzer orientiertWer sind diejenigen, die Daten konsumieren? In welchen Formaten nutzen die Nutzer die Daten? Mit welchen Werkzeugen? Wie können wir die Zufriedenheit Nutzer messen?

Bei einem zentralisierten Ansatz reagieren die Unternehmen auf die Bedürfnisse der Geschäftsanwender und skalieren langsamer. Data Mesh wird daher zur Verbreitung der Datenkultur beitragen, indem es die Schritte reduziert, die zur Nutzung der Daten erforderlich sind.

Laut Zhamak Dehghani sollte ein Datenprodukt verschiedene Kriterien kennenlernen , und der Datenkatalog ermöglicht es, einige von ihnen kennenlernen :

Erkennbar: Der erste Schritt für einen Datenanalysten, Data-Scientist oder jeden anderen Datenkonsumenten besteht darin, zu wissen, welche Daten vorhanden sind und welche Arten von Erkenntnissen sie nutzen können. Der Datenkatalog adressiert dieses Problem durch eine intelligente Suchmaschine, die die Suche nach Schlüsselwörtern, Tipp- oder Syntaxfehlern, intelligente Vorschläge und erweiterte Funktionen ermöglicht. Der Datenkatalog muss auch personalisierte Erkundungspfade anbieten, um die verschiedenen Datenprodukte besser zu bewerben. Schließlich muss das Such- und Navigationserlebnis im Katalog einfach sein und auf Marktstandards wie Google oder Amazon basieren, um den Einstieg für nicht-technische Nutzer zu erleichtern.

Verständlich: Daten müssen leicht verständlich und konsumierbar sein. Dies ist auch eine der Aufgaben des Datenkatalog: die Bereitstellung des gesamten Kontexts, der zum Verständnis der Daten erforderlich ist. Dazu gehören eine Beschreibung, zugehörige Geschäftskonzepte, Klassifizierung, Beziehungen zu anderen Datenprodukten usw. Die Geschäftsbereiche können den Datenkatalog nutzen, um den Verbrauchern das Verständnis ihrer Datenprodukte so weit wie möglich zu erleichtern. Ein Plus wäre die Integration mit Datentools oder Sandboxen, um das Verhalten der Daten besser zu verstehen.

Vertrauenswürdig: Die Verbraucher müssen Vertrauen in die Daten haben, die sie nutzen. Auch hier wird der Datenkatalog eine wichtige Rolle spielen. Ein Datenkatalog ist kein Datenqualitätstool, aber die Qualitätsindikatoren müssen im Datenkatalog automatisch abgerufen und aktualisiert werden können, um sie den Nutzern zugänglich zu machen (Vollständigkeit, Aktualisierungshäufigkeit usw.). Der Datenkatalog sollte auch in der Lage sein, statistische Informationen über die Daten zu liefern oder die Herkunft der Daten zu rekonstruieren, um den Ursprung und die verschiedenen Umwandlungen im Laufe der Zeit zu verstehen.

Natürlicher Zugang: Ein Datenprodukt sollte in dem Format bereitgestellt werden, das von den verschiedenen Personas (Datenanalysten, Datenwissenschaftler usw.) erwartet wird. Ein und dasselbe Datenprodukt kann daher in verschiedenen Formaten bereitgestellt werden, je nach den Verwendungszwecken und Fähigkeiten der Zielnutzer. Es sollte auch leicht mit den von ihnen verwendeten Tools zu verbinden sein. In diesem Punkt spielt der Katalog jedoch keine besondere Rolle.

Wertvoll: Einer der Schlüssel zum Erfolg eines Datenprodukts ist, dass es unabhängig konsumiert werden kann, dass es für sich genommen sinnvoll ist. Es muss so konzipiert sein, dass es nur in geringem Maße mit anderen Datenprodukten verknüpft werden muss, um den Verbrauchern einen messbaren Wert zu bieten.

Adressierbar: Wenn der Verbraucher das gewünschte Datenprodukt im Katalog gefunden hat, muss er in der Lage sein, einfach, leicht und effizient darauf zuzugreifen oder den Zugriff darauf zu beantragen. Zu diesem Zweck muss der Datenkatalog mit Systemen zur Durchsetzung von Richtlinien verbunden werden können, die den Zugang zu den Daten erleichtern und beschleunigen, indem sie einen Teil der Arbeit automatisieren.

Sicher: Dieser Punkt hängt mit dem vorhergehenden zusammen. Die Benutzer müssen in der Lage sein, einfach, aber sicher auf die Daten zuzugreifen, und zwar gemäß den für die Zugriffsrechte festgelegten Richtlinien. Auch hier erleichtert die Integration des Datenkatalog mit einer Lösung zur Durchsetzung von Richtlinien diesen Aspekt.

Interoperabel: Um den Austausch zwischen Domänen zu erleichtern und wiederum Silos zu vermeiden, müssen Datenprodukte die auf Unternehmensebene definierten Standards kennenlernen , um jede Art von Datenprodukt einfach zu konsumieren und miteinander zu integrieren. Der Datenkatalog muss in der Lage sein, die Metadaten des Datenprodukts zu teilen, um Domänen über APIs miteinander zu verbinden.

Dateninfrastruktur zur Selbstbedienung

In einer Data Mesh-Organisation sind die Geschäftsbereiche dafür verantwortlich, Datenprodukte für das gesamte Unternehmen verfügbar zu machen. Um dieses Ziel zu erreichen, müssen die Bereiche jedoch über Dienste verfügen, die diese Implementierung erleichtern und die Verwaltungsaufgaben so weit wie möglich automatisieren: Diese Dienste müssen die Domänen so unabhängig wie möglich von den Infrastrukturteams machen.

In einer dezentralisierten Organisation wird diese Serviceschicht auch dazu beitragen, die Kosten zu senken, insbesondere die Kosten, die mit der Workload von Dateningenieuren verbunden sind; Ressourcen, die schwer zu finden sind.

Der Datenkatalog ist Teil dieser Abstraktionsschicht, die es den Geschäftsbereichen ermöglicht, die Datenquellen, für die sie verantwortlich sind, einfach zu inventarisieren. Dazu muss der Katalog selbst eine breite Palette von Konnektoren anbieten, die die verschiedenen von den Domänen verwendeten Technologien (Speicherung, Transformation usw.) unterstützen und Kuratierungsaufgaben so weit wie möglich automatisieren.

Über einfach zu bedienende APIs ermöglicht der Datenkatalog den Domains auch die einfache Synchronisation ihrer geschäftlichen oder technischen Repositories, die Anbindung ihrer Qualitätsmanagement-Tools usw.

Föderierte rechnergestützte Verwaltung

Data Mesh bietet einen dezentralen Ansatz für das Datenmanagement , bei dem die Domänen eine gewisse Souveränität erhalten. Die Implementierung einer föderierten Governance gewährleistet jedoch die globale Beständigkeit von Governance-Regeln, die Interoperabilität von Datenprodukten und die Überwachung auf der Skala des Data Mesh.

Das Data Office fungiert eher als Vermittler, der die Governance-Grundsätze und -Politiken weitergibt, denn als Kontrolleur. Das CDO ist nicht mehr für die Qualität oder Sicherheit verantwortlich, sondern verantwortlich für die Definition dessen, was Qualität, Sicherheit usw. ausmacht. Die Bereichsleiter übernehmen vor Ort die Anwendung dieser Grundsätze.

Dieser Paradigmenwechsel wird durch die Automatisierung der Anwendung von Governance-Richtlinien ermöglicht. Die Anwendung dieser Richtlinien wird somit im Vergleich zu einem zentralisierten Ansatz beschleunigt, da sie so nah an der Quelle wie möglich erfolgt.

Der Datenkatalog kann für die gemeinsame Nutzung von Governance-Grundsätzen und Richtlinien verwendet werden, die im Katalog dokumentiert oder aufgelistet und mit den Datenprodukten, für die sie gelten, verknüpft werden können. Er wird auch Metadaten für die Systeme bereitstellen, die für die Automatisierung der Einrichtung der Regeln und Richtlinien verantwortlich sind.

Schlussfolgerung

In einer zunehmend komplexen und sich verändernden Datenumgebung bietet Data Mesh eine alternative sozio-architektonische Antwort auf zentralisierte Ansätze, die nur schwer skalierbar sind und die Geschäftsanforderungen an Datenqualität und Reaktionsfähigkeit kennenlernen .

Der Datenkatalog spielt in dieser Organisation eine zentrale Rolle, indem er ein zentrales Zugriffsportal für die Entdeckung und gemeinsame Nutzung von Datenprodukten im gesamten Unternehmen bereitstellt und es den Geschäftsbereichen ermöglicht, ihre Datenprodukte einfach zu verwalten und die Metadaten zu liefern, um die für eine föderierte Governance erforderlichen Richtlinien zu automatisieren.

actian avatar logo

Über Actian Corporation

Actian versetzt Unternehmen in die Lage, Daten in großem Umfang sicher zu verwalten und zu steuern. Die Data-Intelligence-Lösungen von Actian helfen beim Optimieren komplexer Datenumgebungen und einer beschleunigten Bereitstellung von KI-fähigen Daten. Actian-Lösungen sind flexibel, lassen sich nahtlos integrieren und arbeiten zuverlässig in On-Premises-, Cloud- und Hybrid-Umgebungen. Erfahren Sie mehr über Actian, die Datenabteilung von HCLSoftware, unter actian.com.