7 Lügen der Datenkataloge #6: Muss auf Automatisierung setzen

Datenkatalog Data Governance

Datenkatalog Data Governance

Zusammenfassung

Ein Datenkatalog sich aufgrund der enormen und stetig wachsenden Menge an Datenbeständen und Metadaten in hohem Maße auf Automatisierung stützen.
Manuelle Methoden zur Pflege eines Katalogs sind nicht skalierbar werden schnell veraltet oder unzuverlässig.
Das automatisierte Scannen von Datenquellen ist unerlässlich, um den Katalogbestand korrekt und auf dem neuesten Stand zu halten.
Die Automatisierung kann zudem dazu beitragen, Metadaten Regeln, Integrationen und intelligente Vorschläge zu ergänzen.
Ohne eine umfassende Automatisierung Datenkatalog einem Datenkatalog mangelndes Vertrauen, eine geringe Akzeptanz und letztendlich das Scheitern.

Der Datenkatalog Markt hat sich rasant entwickelt und gilt heute als unverzichtbar für die Umsetzung einer data-driven Strategie. Dieser Markt ist Opfer seines eigenen Erfolgs geworden und hat eine Reihe von Akteuren aus angrenzenden Märkten angezogen.

Diese Akteure haben ihre Marketingpositionierung überarbeitet, um sich als Datenkatalog zu präsentieren.

Die Realität sieht so aus, dass diese Unternehmen zwar relativ wenig über die eigentlichen Datenkatalog wissen, aber mit einem ihrem Marketingbudget entsprechenden Erfolg versuchen, die Kunden davon zu überzeugen, dass es sich bei einem Datenkatalog nicht nur um ein High-Performance für Datenteams handelt, sondern um eine integrierte Lösung, die eine ganze Reihe anderer Themen abdeckt.

Das Ziel dieser Blogserie ist es, das Angebot dieser Anbieter von Datenkatalog in letzter Minute zu dekonstruieren.

Hier sind, unserer Meinung nach, die 7 Lügen der Datenkatalog :

Ein Datenkatalog ist eine Data Governance Plattform.
Ein Datenkatalog kann Datenqualität messen und verwalten .
Ein Datenkatalog kann die Einhaltung von Vorschriften verwalten .
Ein Datenkatalog kann Daten direkt abfragen .
Ein Datenkatalog kann logische Architekturen und Geschäftsprozesse rund um Daten modellieren.
Ein Datenkatalog ist ein kollaboratives Kartographie- und Metadaten , das nicht automatisiert werden kann.
Ein Datenkatalog ist ein langes, komplexes und teures Projekt.

Ein Datenkatalog muss auf Automatisierung setzen

Einige Datenkatalog , die aus der Welt der Kartographie kommen, haben die Rhetorik entwickelt, dass die Automatisierung ein sekundäres Thema ist, das zu einem späteren Zeitpunkt angegangen werden kann.

Sie werden Ihnen sagen, dass ein paar manuelle Datei-Importe ausreichen, zusammen mit einer großzügigen Nutzer , die an ihrem Tool mitarbeitet, um den Katalog zu füttern und zu nutzen. Ein wenig Rechnen genügt, um zu verstehen, warum dieser Ansatz in einer datenzentrierten Organisation zum Scheitern verurteilt ist.

Ein aktiver Daten-Lake, selbst ein bescheidener, sammelt in seinen verschiedenen Schichten schnell Hunderte und sogar Tausende von Datensätzen an. Zu diesen Datensätzen können diejenigen aus anderen Systemen (Datenbankanwendungen, verschiedene APIs, CRMs, ERPs, noSQL usw.) hinzugefügt werden, die wir normalerweise in den Katalog integrieren möchten.

Die Größenordnungen gehen schnell über Tausende, manchmal Zehntausende von Datensätzen hinaus. Jeder Datensatz enthält Dutzende von Feldern. Datensätze und Felder allein stellen mehrere Hunderttausende von Objekten dar (wir könnten auch andere Assets einbeziehen: ML-Modelle, Dashboards, Berichte usw.). Damit der Katalog nützlich ist, genügt es nicht, diese Objekte zu inventarisieren.

Sie müssen auch alle EigenschaftenMetadaten) mit ihnen kombinieren, die es den Endnutzern ermöglichen, diese Werte zu finden, zu verstehen und zu nutzen. Es gibt mehrere Arten von Metadaten: technische Informationen, geschäftliche Klassifizierung, Semantik, Sicherheit, Empfindlichkeit, Qualität, Normen, Verwendungszwecke, Beliebtheit, Kontakte usw. Auch hier gibt es für jedes Asset Dutzende von Eigenschaften.

Zurück zur Arithmetik: Insgesamt haben wir es mit Millionen von Attributen zu tun, die gepflegt werden müssen.

Schon allein diese Datenmengen sollten jeden Gedanken daran, den manuellen Ansatz zu wählen, zunichte machen. Doch es gibt noch mehr. Der Bestand an Informationsressourcen ist nicht statisch. Er wächst ständig. In einem datenzentrierten Unternehmen werden täglich neue Datensätze erstellt, während andere verschoben oder geändert werden.

Der Datenkatalog muss diese Änderungen widerspiegeln.

Andernfalls wird sein Inhalt dauerhaft veraltet sein, und die Endnutzer werden ihn ablehnen. Wer würde schon einem Datenkatalog vertrauen, Datenkatalog unvollständig und fehlerhaft ist? Wenn Sie der Meinung sind, dass Ihre Organisation den Aufwand bewältigen und Ihren Katalog auf dem neuesten Stand halten kann, ist das wunderbar. Andernfalls empfehlen wir Ihnen, so schnell wie möglich zu prüfen, welchen Automatisierungsgrad die verschiedenen Lösungen bieten, die Sie in Betracht ziehen.

Was können wir in einem Datenkatalog automatisieren?

In Bezug auf die Automatisierung ist die wichtigste Kapazität das Inventar.

Ein Datenkatalog in der Lage sein, alle Ihre Datenquellen regelmäßig zu scannen und das Bestandsverzeichnis ( Metadaten Datensätze, Strukturen und technische Metadaten ) automatisch zu aktualisieren, um den aktuellen Stand der Hostingsysteme widerzuspiegeln.

Glauben Sie uns: Ein Datenkatalog , der keine Verbindung zu Ihren Datenquellen herstellen kann, wird schnell unbrauchbar, weil sein Inhalt immer zweifelhaft sein wird.

Sobald die Bestandsaufnahme abgeschlossen ist, besteht die nächste Herausforderung darin, die Einspeisung des Metamodells zu automatisieren.

Hier scheint, jenseits der technischen Metadaten, eine vollständige Automatisierung nur schwer vorstellbar. Dennoch ist es möglich, den notwendigen Workload für die Pflege des Metamodells deutlich zu reduzieren. Der Wert bestimmter Eigenschaften kann durch einfache Anwendung von Regeln zum Zeitpunkt der Integration der Objekte in den Katalog bestimmt werden.

Es ist auch möglich, mit mehr oder weniger ausgefeilten Algorithmen (semantische Analyse, Mustervergleich usw.) Eigenschaftswerte vorzuschlagen.

Schließlich ist es oft möglich, einen Teil des Katalogs zu ergänzen, indem man die Systeme integriert, die Metadaten erzeugen oder enthalten. Dies kann beispielsweise für Qualitätsmessungen, Herkunftsinformationen, Geschäftsontologien usw. gelten.

Damit dieser Ansatz funktioniert, muss der Datenkatalog offen sein und einen vollständigen Satz von APIs anbieten, die es ermöglichen, die Metadaten von anderen Systemen aus zu aktualisieren.

Mitnehmen

Ein Datenkatalog Millionen von Datenelementen in einem sich ständig wandelnden Umfeld.

Diese Informationen manuell zu pflegen, ist praktisch unmöglich oder mit extrem hohen Kosten verbunden. Ohne Automatisierung wird der Inhalt des Katalogs stets zweifelhaft sein, und die Datenteams werden ihn nicht nutzen.

Über den Autor