Daten-Intelligenz

7 Lügen der Datenkataloge #6: Muss auf Automatisierung setzen

Actian Germany GmbH

Juli 9, 2021

Business Process Management und Workflow-Automatisierung Diagramm mit Zahnrädern und Symbolen mit Verbindung Linie Netzwerk im Hintergrund. Manager berühren Schnittstelle

Der Markt für Datenkatalog hat sich rasch entwickelt und gilt heute als unverzichtbar für die Umsetzung einer data driven Strategie. Dieser Markt ist Opfer seines eigenen Erfolgs geworden und hat eine Reihe von Akteuren aus angrenzenden Märkten angezogen.

 Diese Akteure haben ihre Marketingpositionierung überarbeitet, um sich als Datenkatalog zu präsentieren.

Die Realität sieht so aus, dass diese Unternehmen zwar relativ wenig über die eigentlichen Datenkatalog wissen, aber mit einem ihrem Marketingbudget entsprechenden Erfolg versuchen, die Kunden davon zu überzeugen, dass es sich bei einem Datenkatalog nicht nur um ein High-Performance für Datenteams handelt, sondern um eine integrierte Lösung, die eine ganze Reihe anderer Themen abdeckt.

Das Ziel dieser Blogserie ist es, das Angebot dieser Anbieter von Datenkatalog in letzter Minute zu dekonstruieren.

Ein Datenkatalog muss auf Automatisierung setzen

Einige Datenkatalog , die aus der Welt der Kartographie kommen, haben die Rhetorik entwickelt, dass die Automatisierung ein sekundäres Thema ist, das zu einem späteren Zeitpunkt angegangen werden kann.

Sie werden Ihnen sagen, dass ein paar manuelle Datei-Importe ausreichen, zusammen mit einer großzügigen Nutzer , die an ihrem Tool mitarbeitet, um den Katalog zu füttern und zu nutzen. Ein wenig Rechnen genügt, um zu verstehen, warum dieser Ansatz in einer datenzentrierten Organisation zum Scheitern verurteilt ist.

Ein aktiver Daten-Lake, selbst ein bescheidener, sammelt in seinen verschiedenen Schichten schnell Hunderte und sogar Tausende von Datensätzen an. Zu diesen Datensätzen können diejenigen aus anderen Systemen (Datenbankanwendungen, verschiedene APIs, CRMs, ERPs, noSQL usw.) hinzugefügt werden, die wir normalerweise in den Katalog integrieren möchten.

Die Größenordnungen gehen schnell über Tausende, manchmal Zehntausende von Datensätzen hinaus. Jeder Datensatz enthält Dutzende von Feldern. Datensätze und Felder allein stellen mehrere Hunderttausende von Objekten dar (wir könnten auch andere Assets einbeziehen: ML-Modelle, Dashboards, Berichte usw.). Damit der Katalog nützlich ist, genügt es nicht, diese Objekte zu inventarisieren.

Sie müssen auch alle EigenschaftenMetadaten) mit ihnen kombinieren, die es den Endnutzern ermöglichen, diese Werte zu finden, zu verstehen und zu nutzen. Es gibt mehrere Arten von Metadaten: technische Informationen, geschäftliche Klassifizierung, Semantik, Sicherheit, Empfindlichkeit, Qualität, Normen, Verwendungszwecke, Beliebtheit, Kontakte usw. Auch hier gibt es für jedes Asset Dutzende von Eigenschaften.

Zurück zur Arithmetik: Insgesamt haben wir es mit Millionen von Attributen zu tun, die gepflegt werden müssen.

Allein diese Mengen sollten jede Versuchung, den manuellen Ansatz zu wählen, disqualifizieren. Aber es gibt noch mehr. Der Bestand an Informationsgütern ist nicht statisch. Er wächst ständig. In einer datenzentrierten Organisation werden täglich neue Datensätze erstellt, andere werden verschoben oder geändert.

Der Datenkatalog muss diese Änderungen widerspiegeln.

Andernfalls ist der Inhalt dauerhaft veraltet und wird von den Endnutzern abgelehnt. Wer wird schon einem Datenkatalog vertrauen, der unvollständig und falsch ist? Wenn Sie der Meinung sind, dass Ihre Organisation die Belastung auffangen und Ihren Katalog auf dem neuesten Stand halten kann, ist das wunderbar. Andernfalls empfehlen wir Ihnen, so schnell wie möglich den Automatisierungsgrad der verschiedenen Lösungen, die Sie in Betracht ziehen, zu überprüfen.

Was können wir in einem Datenkatalog automatisieren?

In Bezug auf die Automatisierung ist die wichtigste Kapazität das Inventar.

Ein Datenkatalog sollte in der Lage sein, alle Ihre Datenquellen regelmäßig zu scannen und das Inventar (mindestens Datensätze, Strukturen und technische Metadaten ) automatisch zu aktualisieren, um die tägliche Realität der Hosting-Systeme widerzuspiegeln.

Glauben Sie uns: Ein Datenkatalog , der keine Verbindung zu Ihren Datenquellen herstellen kann, wird schnell unbrauchbar, weil sein Inhalt immer zweifelhaft sein wird.

Sobald die Bestandsaufnahme abgeschlossen ist, besteht die nächste Herausforderung darin, die Einspeisung des Metamodells zu automatisieren.

Hier scheint, jenseits der technischen Metadaten, eine vollständige Automatisierung nur schwer vorstellbar. Dennoch ist es möglich, den notwendigen Workload für die Pflege des Metamodells deutlich zu reduzieren. Der Wert bestimmter Eigenschaften kann durch einfache Anwendung von Regeln zum Zeitpunkt der Integration der Objekte in den Katalog bestimmt werden.

Es ist auch möglich, mit mehr oder weniger ausgefeilten Algorithmen (semantische Analyse, Mustervergleich usw.) Eigenschaftswerte vorzuschlagen.

Schließlich ist es oft möglich, einen Teil des Katalogs durch die Integration der Systeme zu speisen, die Metadaten produzieren oder enthalten. Dies kann z. B. für die Qualitätsmessung, für Abstammungsinformationen, für Geschäftsontologien usw. gelten.

Damit dieser Ansatz funktioniert, muss der Datenkatalog offen sein und einen vollständigen Satz von APIs anbieten, die es ermöglichen, die Metadaten von anderen Systemen aus zu aktualisieren.

Mitnehmen

Ein Datenkatalog verarbeitet Millionen von Informationen in einer sich ständig verändernden Landschaft.

Die manuelle Pflege dieser Informationen ist praktisch unmöglich oder extrem kostspielig. Ohne Automatisierung wird der Inhalt des Katalogs immer zweifelhaft sein, und die Datenteams werden ihn nicht nutzen.

actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, Verwaltung und Analyse von Daten in Cloud-, Hybrid- und lokalen Umgebungen. Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und -analyse liefert Actian leistungsstarke Lösungen, die es Unternehmen ermöglichen, datengesteuerte Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und wurde für seine Leistung und Innovation mit Branchenpreisen ausgezeichnet. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im ActianBlog behandeln wir Themen wie Echtzeit-Dateneingabe, Datenanalyse, Data Governance, Datenmanagement, Datenqualität, Datenintelligenz und KI-gesteuerte Analysen.