Data Intelligence

Was macht einen Datenkatalog "smart"? #3 - Metadaten Management

Actian Germany GmbH

Februar 16, 2022

Metadaten

A Datenkatalog bündelt enorme Mengen unterschiedlichster Informationen, deren Umfang exponentiell wachsen wird. Dies wird 2 große Herausforderungen mit sich bringen:

  • Wie kann das Informationsvolumen eingespeist und gepflegt werden, ohne dass sich die Kosten für die Verwaltung der Metadaten verdreifachen (oder mehr)?
  • Wie findet man die wichtigsten Datensätze für einen bestimmten use case?

Ein Datenkatalog sollte intelligent sein, um diese beiden Fragen zu beantworten, mit intelligenten technologischen und konzeptionellen Merkmalen, die über die reine Integration von KI-Algorithmen hinausgehen.

In diesem Zusammenhang haben wir 5 Bereiche identifiziert, in denen ein Datenkatalog "Smart" sein kann - die meisten davon haben nichts mit Maschinelles Lernen:

  1. Metamodellierung
  2. Der Datenbestand
  3. Verwaltung von Metadaten
  4. Die Suchmaschine
  5. Erfahrungen Nutzer

Im Bereich des Metadaten wird der Begriff des Smart Datenkatalog am ehesten mit Algorithmen, Maschinelles Lernen und KI in Verbindung gebracht.

Wie wird die Metadaten automatisiert?

Die Metadaten ist die Disziplin, die darin besteht, die Metamodellattribute für die inventarisierten Assets zu bewerten. Der erforderliche Workload ist in der Regel proportional zur Anzahl der Attribute im Metamodell und der Anzahl der Assets im Katalog.

Die Rolle des Smart Datenkatalog besteht darin, diese Tätigkeit so weit wie möglich zu automatisieren oder zumindest die menschlichen Betreiber (Data Stewards) dabei zu unterstützen, um um eine höhere Produktivität und Zuverlässigkeit zu gewährleisten.

Wie wir in unserem letzten Artikel gesehen haben, ermöglicht eine intelligente Konnektivitätsschicht die Automatisierung eines Teils der Metadaten , aber diese Automatisierung ist sehr stark auf eine begrenzte Teilmenge des Metamodells beschränkt - hauptsächlich auf technische Metadaten. Ein komplettes Metamodell, selbst ein bescheidenes, hat auch Dutzende von Metadaten , die nicht aus den Registern der Quellsysteme extrahiert werden können (weil sie dort zunächst nicht vorhanden sind).

Um diese Gleichung zu lösen, sind mehrere Ansätze möglich:

Erkennung von Mustern

Der direkteste Ansatz besteht in der Suche nach Muster im Katalog zu erkennen um Metadaten für neue Assets vorzuschlagen.

Einfach ausgedrückt, umfasst ein Muster alle Metadaten eines Assets und die Metadaten seiner Beziehungen zu anderen Assets oder anderen Katalogeinheiten. Die Mustererkennung erfolgt in der Regel mit Hilfe von Algorithmen des Maschinelles Lernen .

Die Schwierigkeit bei der Umsetzung dieses Ansatzes besteht darin, die Informationsbestände in numerischer Form genau zu qualifizieren, um die Algorithmen zu speisen und die relevanten Muster auszuwählen. Eine einfache Strukturanalyse reicht nicht aus: Zwei Datensätze können identische Daten enthalten, aber in unterschiedlichen Strukturen. Sich auf die Identität der Daten zu verlassen, ist ebenfalls nicht effizient: Zwei Datensätze können identische Informationen enthalten, aber mit unterschiedlichen Werten. Ein Beispiel, 2020 Kundenfakturierung in einem Datensatz, 2021 Kundenfakturierung in dem anderen.

Um dieses Problem zu lösen, stützt sich die Actian Data Intelligence Platform auf eine Technologie namens Fingerprinting. Um den Fingerabdruck zu erstellen, ziehen wir 2 Arten von Merkmalen aus den Daten unserer Kunden heran:

  • Eine Gruppe von Merkmalen, die an die numerischen Daten angepasst sind (meist statistische Indikatoren).
  • Daten, die von Wort-Einbettungsmodellen (Wortvektorisierung) für die Textdaten stammen.

Das Fingerprinting ist das Herzstück unserer intelligenten Algorithmen.

Die anderen eingebettet Ansätze in einer Suggestion Engine

Die Mustererkennung ist zwar ein effizienter Ansatz, um die Metadaten eines neuen Assets in einem Katalog vorzuschlagen, aber sie beruht auf einer wichtigen Voraussetzung: Um ein Muster zu erkennen, muss es eines geben. Mit anderen Worten, dies funktioniert nur, wenn es eine Reihe von Assets im Katalog gibt (was zu Beginn eines Projekts natürlich nicht der Fall ist).

Und gerade in diesen Anfangsphasen eines Katalogprojekts ist die Belastung des Metadaten am höchsten. Daher ist es von entscheidender Bedeutung, andere Ansätze einzubeziehen, die den Data Stewards in diesen Anfangsphasen, wenn ein Katalog mehr oder weniger leer ist, helfen können.

Die Suggestion Engine der Actian Data Intelligence Platform, die intelligente Algorithmen zur Unterstützung der Verwaltung der Metadaten bereitstellt, bietet auch andere Ansätze (die wir regelmäßig erweitern). 

Hier sind einige dieser Ansätze:

  • Erkennung struktureller Ähnlichkeiten.
  • Erkennung der Ähnlichkeit von Fingerabdrücken.
  • Angleichung der Namen.

Diese Vorschlagsmaschine, die den Inhalt des Katalogs analysiert, um die wahrscheinlichen Werte der Metadaten aus den integrierten Assets zu bestimmen, ist ein ständiger Gegenstand des Experimentierens. Wir fügen regelmäßig neue Ansätze hinzu, die manchmal sehr einfach und manchmal sehr viel ausgefeilter sind. In unserer Architektur handelt es sich um einen speziellen Dienst, dessen Leistungen sich mit dem Wachstum des Katalogs und der Erweiterung unserer Algorithmen verbessern.

Actian Data Intelligence Platform hat sich für die Verwendung der Durchlaufzeit als Hauptmessgröße für die Produktivität der der Data Stewards zu verwenden (was das ultimative Ziel eines intelligenten Metadaten ist). Durchlaufzeit ist ein Begriff, der aus dem Lean Management und misst in einem Datenkatalog die Zeit, die zwischen der Inventarisierung eines Assets und der Bewertung aller Metadaten vergeht.

Für weitere Informationen über Smart Metadaten einen Datenkatalog aufwertet, laden Sie unser eBook herunter: "Was ist ein intelligenter Datenkatalog?".

actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, verwalten und Analyse von Daten in Cloud, Hybrid- und On-Premises . Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und Analytik liefert Actian High-Performance Lösungen, die Unternehmen in die Lage versetzen, data driven Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und hat Branchenauszeichnungen für Leistung und Innovation erhalten. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im Actian-Blog behandeln wir Themen, die von Dateneingang bis hin zu KI-gesteuerter Analytik reichen.