Was macht einen Datenkatalog "smart"? #3 - Metadaten Management

Zusammenfassung

Metadaten intelligentes Metadaten trägt dazu bei, den manuellen Aufwand für die Anreicherung und Pflege eines Datenkatalog zu reduzieren.
Die Automatisierung kann zwar bestimmte technische Metadaten verarbeiten, doch für geschäftliche Metadaten ist Metadaten die intelligente Unterstützung durch Datenverwalter erforderlich.
Mustererkennung und Fingerprinting werden eingesetzt, um Metadaten vorzuschlagen, indem Ähnlichkeiten zwischen Assets ermittelt werden.
Zusätzliche Ansätze wie strukturelle Ähnlichkeit und Namensabgleich sind hilfreich, insbesondere wenn der Katalog noch klein ist.
Das Hauptziel besteht darin, die Zeitspanne zwischen der Entdeckung eines Assets und dessen vollständiger Dokumentation zu verkürzen.

A Datenkatalog bündelt enorme Mengen unterschiedlichster Informationen, deren Umfang exponentiell wachsen wird. Dies wird 2 große Herausforderungen mit sich bringen:

Wie kann das Informationsvolumen eingespeist und gepflegt werden, ohne dass sich die Kosten für die Verwaltung der Metadaten verdreifachen (oder mehr)?
Wie findet man die wichtigsten Datensätze für einen bestimmten use case?

Ein Datenkatalog sollte intelligent sein, um diese beiden Fragen zu beantworten, mit intelligenten technologischen und konzeptionellen Merkmalen, die über die reine Integration von KI-Algorithmen hinausgehen.

Diesbezüglich haben wir 5 Bereiche identifiziert, in denen ein Datenkatalog "Smart" sein kann - die meisten davon haben nichts mit Maschinelles Lernen:

Metamodellierung
Der Datenbestand
Verwaltung von Metadaten
Die Suchmaschine
Erfahrungen Nutzer

Im Bereich des Metadaten wird der Begriff des Smart Datenkatalog am ehesten mit Algorithmen, Maschinelles Lernen und KI in Verbindung gebracht.

Wie wird die Metadaten automatisiert?

DieMetadaten ist die Disziplin, die darin besteht, die Metamodellattribute für die inventarisierten Assets zu bewerten. Der erforderliche Workload ist in der Regel proportional zur Anzahl der Attribute im Metamodell und der Anzahl der Assets im Katalog.

Die Rolle des Smart Datenkatalog besteht darin, diese Tätigkeit so weit wie möglich zu automatisieren oder zumindest die menschlichen Betreiber (Data Stewards) dabei zu unterstützen, um um eine höhere Produktivität und Zuverlässigkeit zu gewährleisten.

Wie wir in unserem letzten Artikel gesehen haben, ermöglicht eine intelligente Konnektivitätsschicht die Automatisierung eines Teils der Metadaten , aber diese Automatisierung ist sehr stark auf eine begrenzte Teilmenge des Metamodells beschränkt - hauptsächlich auf technische Metadaten. Ein komplettes Metamodell, selbst ein bescheidenes, hat auch Dutzende von Metadaten , die nicht aus den Registern der Quellsysteme extrahiert werden können (weil sie dort zunächst nicht vorhanden sind).

Um diese Gleichung zu lösen, sind mehrere Ansätze möglich:

Erkennung von Mustern

Der direkteste Ansatz besteht in der Suche nach Muster im Katalog zu erkennen um Metadaten für neue Assets vorzuschlagen.

Einfach ausgedrückt, umfasst ein Muster alle Metadaten eines Assets und die Metadaten seiner Beziehungen zu anderen Assets oder anderen Katalogeinheiten. Die Mustererkennung erfolgt in der Regel mit Hilfe von Algorithmen des Maschinelles Lernen .

Die Schwierigkeit bei der Umsetzung dieses Ansatzes besteht darin, die Informationsbestände in numerischer Form genau zu qualifizieren, um die Algorithmen zu speisen und die relevanten Muster auszuwählen. Eine einfache Strukturanalyse reicht nicht aus: Zwei Datensätze können identische Daten enthalten, aber in unterschiedlichen Strukturen. Sich auf die Identität der Daten zu verlassen, ist ebenfalls nicht effizient: Zwei Datensätze können identische Informationen enthalten, aber mit unterschiedlichen Werten. Ein Beispiel, 2020 Kundenfakturierung in einem Datensatz, 2021 Kundenfakturierung in dem anderen.

Um dieses Problem zu lösen, Actian Data Intelligence-Plattform die Actian Data Intelligence-Plattform auf eine Technologie namens Fingerprinting. Um den Fingerabdruck zu erstellen, extrahieren wir zwei Arten von Merkmalen aus den Daten unserer Kunden:

Eine Gruppe von Merkmalen, die an die numerischen Daten angepasst sind (meist statistische Indikatoren).
Daten, die von Wort-Einbettungsmodellen (Wortvektorisierung) für die Textdaten stammen.

Das Fingerprinting ist das Herzstück unserer intelligenten Algorithmen.

Die anderen eingebettet Ansätze in einer Suggestion Engine

Die Mustererkennung ist zwar ein effizienter Ansatz, um die Metadaten eines neuen Assets in einem Katalog vorzuschlagen, aber sie beruht auf einer wichtigen Voraussetzung: Um ein Muster zu erkennen, muss es eines geben. Mit anderen Worten, dies funktioniert nur, wenn es eine Reihe von Assets im Katalog gibt (was zu Beginn eines Projekts natürlich nicht der Fall ist).

Und gerade in diesen Anfangsphasen eines Katalogprojekts ist die Belastung des Metadaten am höchsten. Daher ist es von entscheidender Bedeutung, andere Ansätze einzubeziehen, die den Data Stewards in diesen Anfangsphasen, wenn ein Katalog mehr oder weniger leer ist, helfen können.

Actian Data Intelligence-Plattform der Actian Data Intelligence-Plattform , die intelligente Algorithmen zur Unterstützung der Metadaten bereitstellt, bietet auch weitere Ansätze (die wir regelmäßig erweitern).

Hier sind einige dieser Ansätze:

Erkennung struktureller Ähnlichkeiten.
Erkennung der Ähnlichkeit von Fingerabdrücken.
Angleichung der Namen.

Diese Empfehlungsmaschine, die den Kataloginhalt analysiert, um die wahrscheinlichen Werte der Metadaten integrierten Assets zu ermitteln, ist ein ständiges Experimentierfeld. Wir fügen regelmäßig neue Ansätze hinzu, die mal sehr einfach und mal wesentlich ausgefeilter sind. In unserer Architektur handelt es sich um einen eigenständigen Dienst, dessen Leistung sich mit dem Wachstum des Katalogs und der Weiterentwicklung unserer Algorithmen verbessert.

Actian Data Intelligence-Plattform sich dafür entschieden, die Durchlaufzeit als Hauptkennzahl für die Produktivität der Data Stewards (was das ultimative Ziel eines intelligenten Metadaten ist). Die Durchlaufzeit ist ein Begriff, der aus dem Lean-Management stammt und im Datenkatalog eines Datenkatalog die Zeit misst, die zwischen dem Zeitpunkt der Erfassung eines Assets und dem Zeitpunkt vergeht, an dem alle seine Metadaten bewertet Metadaten .

Weitere Informationen dazu, wie Smart Metadaten einen Datenkatalog verbessert, laden Sie unser E-Book herunter: „Was ist ein Datenkatalog?“

Über den Autor