Was macht einen Datenkatalog "smart"? #3 - Metadaten Management
Actian Germany GmbH
Februar 16, 2022

A Datenkatalog bündelt enorme Mengen unterschiedlichster Informationen - und deren Umfang wird exponentiell wachsen. Dies wird 2 große Herausforderungen mit sich bringen:
- Wie kann das Informationsvolumen eingespeist und gepflegt werden, ohne dass sich die Kosten für die Verwaltung der Metadaten verdreifachen (oder mehr)?
- Wie findet man die wichtigsten Datensätze für einen bestimmten use case?
Ein Datenkatalog sollte intelligent sein, um diese beiden Fragen zu beantworten, mit intelligenten technologischen und konzeptionellen Eigenschaften, die über die alleinige Integration von KI-Algorithmen hinausgehen.
In diesem Zusammenhang haben wir 5 Bereiche identifiziert, in denen ein Datenkatalog "Smart" sein kann - die meisten davon haben nichts mit Maschinelles Lernen:
- Metamodellierung
- Der Datenbestand
- Verwaltung von Metadaten
- Die Suchmaschine
- Erfahrungen Nutzer
Im Bereich des Metadaten wird der Begriff des Smart Datenkatalog am ehesten mit Algorithmen, Maschinelles Lernen und KI in Verbindung gebracht.
Wie wird die Metadaten automatisiert?
Die Metadaten ist die Disziplin, die darin besteht, die Metamodellattribute für die inventarisierten Assets zu bewerten. Der erforderliche Workload ist in der Regel proportional zur Anzahl der Attribute im Metamodell und der Anzahl der Assets im Katalog.
Die Rolle des Smart Datenkatalog besteht darin, diese Tätigkeit so weit wie möglich zu automatisieren oder zumindest die menschlichen Betreiber (Data Stewards) dabei zu unterstützen, um um eine höhere Produktivität und Zuverlässigkeit zu gewährleisten.
Wie wir in unserem letzten Artikel gesehen haben, ermöglicht eine intelligente Konnektivitätsschicht die Automatisierung eines Teils der Metadaten , aber diese Automatisierung ist sehr stark auf eine begrenzte Teilmenge des Metamodells beschränkt - hauptsächlich auf technische Metadaten. Ein komplettes Metamodell, selbst ein bescheidenes, hat auch Dutzende von Metadaten , die nicht aus den Registern der Quellsysteme extrahiert werden können (weil sie dort zunächst nicht vorhanden sind).
Um diese Gleichung zu lösen, sind mehrere Ansätze möglich:
Erkennung von Mustern
Der direkteste Ansatz besteht in der Suche nach Muster im Katalog zu erkennen um Metadaten für neue Assets vorzuschlagen.
Einfach ausgedrückt, umfasst ein Muster alle Metadaten eines Assets und die Metadaten seiner Beziehungen zu anderen Assets oder anderen Katalogeinheiten. Die Mustererkennung erfolgt in der Regel mit Hilfe von Algorithmen des Maschinelles Lernen .
Die Schwierigkeit bei der Umsetzung dieses Ansatzes besteht darin, die Informationsbestände in numerischer Form genau zu qualifizieren, um die Algorithmen zu speisen und die relevanten Muster auszuwählen. Eine einfache Strukturanalyse reicht nicht aus: Zwei Datensätze können identische Daten enthalten, aber in unterschiedlichen Strukturen. Sich auf die Identität der Daten zu verlassen, ist ebenfalls nicht effizient: Zwei Datensätze können identische Informationen enthalten, aber mit unterschiedlichen Werten. Ein Beispiel, 2020 Kundenfakturierung in einem Datensatz, 2021 Kundenfakturierung in dem anderen.
Um dieses Problem zu lösen, setzt Zeenea auf eine Technologie namens Fingerprinting. Um den Fingerabdruck zu erstellen, ziehen wir 2 Arten von Merkmalen aus den Daten unserer Kunden heran:
- Eine Gruppe von Merkmalen, die an die numerischen Daten angepasst sind (meist statistische Indikatoren).
- Daten, die von Wort-Einbettungsmodellen (Wortvektorisierung) für die Textdaten stammen.
Das Fingerprinting ist das Herzstück unserer intelligenten Algorithmen.
Die anderen eingebettet Ansätze in einer Suggestion Engine
Die Mustererkennung ist zwar ein effizienter Ansatz, um die Metadaten eines neuen Assets in einem Katalog vorzuschlagen, aber sie beruht auf einer wichtigen Voraussetzung: Um ein Muster zu erkennen, muss es eines geben. Mit anderen Worten, dies funktioniert nur, wenn es eine Reihe von Assets im Katalog gibt (was zu Beginn eines Projekts natürlich nicht der Fall ist).
Und gerade in diesen Anfangsphasen eines Katalogprojekts ist die Belastung des Metadaten am höchsten. Daher ist es von entscheidender Bedeutung, andere Ansätze einzubeziehen, die den Data Stewards in diesen Anfangsphasen, wenn ein Katalog mehr oder weniger leer ist, helfen können.
Die Zeenea Suggestion Engine, die intelligente Algorithmen zur Unterstützung der Verwaltung der Metadaten bereitstellt, bietet auch andere Ansätze (die wir regelmäßig erweitern).
Hier sind einige dieser Ansätze:
- Erkennung struktureller Ähnlichkeiten.
- Erkennung der Ähnlichkeit von Fingerabdrücken.
- Angleichung der Namen.
Diese Vorschlagsmaschine, die den Inhalt des Katalogs analysiert, um die wahrscheinlichen Werte der Metadaten aus den integrierten Assets zu bestimmen, ist ein ständiger Gegenstand des Experimentierens. Wir fügen regelmäßig neue Ansätze hinzu, die manchmal sehr einfach und manchmal sehr viel ausgefeilter sind. In unserer Architektur handelt es sich um einen speziellen Dienst, dessen Leistungen sich mit dem Wachstum des Katalogs und der Erweiterung unserer Algorithmen verbessern.
Zeenea hat sich dafür entschieden, die Durchlaufzeit als Hauptmessgröße für die Produktivität der der Datenverwalter zu verwenden (was das ultimative Ziel eines intelligenten Metadaten ist). Durchlaufzeit ist ein Begriff, der aus dem Lean Management und misst in einem Datenkatalog die Zeit, die zwischen der Inventarisierung eines Assets und der Bewertung aller Metadaten vergeht.
Für weitere Informationen über Smart Metadaten einen Datenkatalog aufwertet, laden Sie unser eBook herunter: "Was ist ein intelligenter Datenkatalog?".
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden - Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.