Was macht einen Datenkatalog "smart"? #2 - Das Dateninventar
Actian Germany GmbH
Februar 16, 2022

Ein Datenkatalog erschließt enorme Mengen unterschiedlichster Informationen - und sein Umfang wird exponentiell wachsen. Dies wird 2 große Herausforderungen mit sich bringen:
- Wie kann das Informationsvolumen eingespeist und gepflegt werden, ohne dass sich die Kosten für die Verwaltung der Metadaten verdreifachen (oder mehr)?
- Wie findet man die wichtigsten Datensätze für einen bestimmten use case?
A Datenkatalog sollte intelligent sein, um diese 2 Fragen zu beantworten, mit intelligenten technologischen und konzeptionellen Eigenschaften, die über die alleinige Integration von KI-Algorithmen hinausgehen.
Diesbezüglich haben wir 5 Bereiche identifiziert, in denen ein Datenkatalog "Smart" sein kann - die meisten davon haben nichts mit Maschinelles Lernen:
- Metamodellierung
- Der Datenbestand
- Verwaltung von Metadaten
- Die Suchmaschine
- Erfahrungen Nutzer
Die zweite Möglichkeit, einen Datenkatalog "intelligent" zu machen, ist sein Inventar. Ein Datenkatalog ist im Wesentlichen ein umfassendes Inventar der Informationsbestände, das eine Reihe von Metadaten enthält, die dazu beitragen, die Informationen so effizient wie möglich zu nutzen. Der Aufbau eines Datenkatalog hängt also zunächst von einer Inventarisierung der Bestände aus den verschiedenen Systemen ab.
Die Automatisierung der Bestandsaufnahme: Die Herausforderungen
Ein deklarativer Ansatz für den Aufbau des Bestands erscheint uns nicht besonders klug, so gut er auch durchdacht sein mag. Es bedeutet eine Menge Arbeit bei der Einführung und Pflege des Katalogs - in einer sich schnell verändernden digitalen Landschaft wird der anfängliche Aufwand schnell überflüssig.
Der erste Schritt zur Erstellung einer intelligenten Bestandsaufnahme ist natürlich die automatisieren. Von wenigen Ausnahmen abgesehen, werden Unternehmensdatenbestände von Systemspezialisten verwaltet (verteilte Ablagesysteme, ERP, relationale Datenbanken, Softwarepakete, Data Warehouses usw.). Sie verwalten all diese Systeme zusammen mit allen Metadaten , die für ihr einwandfreies Funktionieren erforderlich sind. Es ist nicht nötig, diese Informationen manuell neu zu erstellen: Sie müssen lediglich eine Verbindung zu den verschiedenen Registraturen herstellen und die Kataloginhalte mit den Quellsystemen synchronisieren.
Theoretisch sollte dies einfach sein, aber die Umsetzung in der Praxis ist ziemlich schwierig. Tatsache ist, es gibt keinen universellen Standard, an den sich die verschiedenen Technologien halten, um einen universellen Zugang zu ihren Metadaten zu ermöglichen.
Die wesentliche Rolle der Konnektivität mit den Systemquellen
Eine intelligente Konnektivitätsschicht ist ein wesentlicher Bestandteil des Smart Datenkatalog. Für eine detailliertere Beschreibung der Konnektivitätstechnologie von Zeenea empfehle ich die Lektüre unseres früheren eBooks Die 5 technologischen Durchbrüche eines Katalogs der nächsten Generation, aber die wichtigsten Merkmale sind:
- Eigenständig - Wir verlassen uns nicht auf Dritte, um eine hochspezialisierte Extraktion der Metadaten zu erhalten.
- Verteilt - Um die Reichweite des Katalogs zu maximieren.
- Offen - Jeder, der den Katalog bereichern möchte, kann seinen eigenen Katalog entwickeln
- Anschlüsse mit Leichtigkeit.
- Universell - Es kann jede Quelle von Metadaten synchronisieren.
Diese Konnektivität kann nicht nur die in den Quellregistern enthaltenen Metadaten lesen und synchronisieren, sondern auch Metadaten erzeugen.
Diese Produktion von Metadaten erfordert mehr als nur den Zugang zu den Registern der Quellsysteme. Sie erfordert auch den Zugriff auf die Daten selbst, die von unseren Scannern analysiert werden, um den Katalog automatisch anzureichern.
Bis heute produzieren wir 2 Arten von Metadaten:
- Statistische Analyse: Erstellung eines Profils der Daten - Werteverteilung, Anteil der Nullwerte, Spitzenwerte usw. (die Art der Metadaten hängt natürlich vom Ursprungstyp der zu analysierenden Daten ab).
- Strukturelle Analyse: Zur Bestimmung der operativen Art bestimmter Textdaten (E-Mail, Postanschrift, Sozialversicherungsnummer, Kundencode usw. - das System ist skalierbar und anpassbar).
Auch der Bestandsaufnahme-Mechanismus muss intelligent sein
Auch unser Inventarisierungsmechanismus ist in mehrfacher Hinsicht intelligent:
- Die Erkennung von Datensatz setzt eine umfassende Kenntnis der Speicherstrukturen voraus, insbesondere in einem Big Data Kontext. So kann beispielsweise einDatensatz , der aus Tausenden von Dateien mit Zeitreihenmessungen besteht, als eindeutiger Datensatz identifiziert werden (die Anzahl der Dateien und ihr Speicherort sind nur Metadaten).
- Das Inventar ist nicht standardmäßig in den Katalog integriert, um zu verhindern, dass technische oder temporäre Datensätze importiert werden, die von geringem Nutzen sind (entweder weil die Daten nicht verwertbar sind oder weil es sich um doppelte Daten handelt).
- Auch bei der Auswahl der Assets, die in den Katalog importiert werden sollen, gibt es eine Hilfestellung - wir bemühen uns, die am besten geeigneten Objekte für die Integration in den Katalog zu identifizieren (mit einer Vielzahl von zusätzlichen Ansätzen, um diese Auswahl zu treffen).
Für weitere Informationen über Smart Data Inventorying einen Datenkatalog verbessert, laden Sie unser eBook herunter: "Was ist ein Smart Datenkatalog?".
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden - Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.