Data Intelligence

Was macht einen Datenkatalog "intelligent"? #1 - Metamodellierung

Actian Germany GmbH

Februar 16, 2022

smart-data-katalog-1-metamodellierung

A Datenkatalog bündelt enorme Mengen unterschiedlichster Informationen, deren Umfang exponentiell wachsen wird. Dies wird 2 große Herausforderungen mit sich bringen:

  • Wie kann das Informationsvolumen eingespeist und gepflegt werden, ohne dass sich die Kosten für die Verwaltung der Metadaten verdreifachen (oder mehr)?
  • Wie findet man die wichtigsten Datensätze für einen bestimmten use case?

Wir denken, dass ein Datenkatalog sollte intelligent sein, um diese 2 Fragen zu beantworten, mit intelligenten technologischen und konzeptionellen Eigenschaften, die über die alleinige Integration von KI-Algorithmen hinausgehen.

In diesem Zusammenhang haben wir 5 Bereiche identifiziert, in denen ein Datenkatalog "Smart" sein kann - die meisten davon haben nichts mit Maschinelles Lernen:

  1. Metamodellierung
  2. Der Datenbestand
  3. Verwaltung von Metadaten
  4. Die Suchmaschine
  5. Erfahrungen Nutzer

Ein universelles und statisches Metamodell kann nicht intelligent sein

Auf Unternehmensebene können die Metadaten , die erforderlich sind, um die Informationsbestände sinnvoll zu nutzen, beträchtlich sein. Außerdem sind die Metadaten für jede Organisation spezifisch, manchmal sogar für verschiedene Personengruppen innerhalb einer Organisation. Ein Wirtschaftsanalytiker wird beispielsweise nicht unbedingt die gleichen Informationen suchen wie ein Ingenieur oder ein Produktmanager.

Der Versuch, ein universelles Metamodell zu schaffen, erscheint uns daher nicht sehr klug. Ein solches Metamodell müsste sich nämlich an eine Fülle unterschiedlicher Situationen anpassen und würde unweigerlich einer der drei unten genannten Fallstricke zum Opfer fallen:

  • Übertriebene Einfachheit, die nicht alle erforderlichen Anwendungsfälle abdeckt.
  • Übermäßige Abstraktionsebenen mit dem Potenzial, sich an eine Reihe von Kontexten anzupassen, auf Kosten mühsamer und zeitaufwändiger Training - keine ideale Situation für eine unternehmensweite Deployment.
  • Abstraktionsebenen, denen es an Tiefe mangelt und die letztlich zu einer Vielzahl konkreter Konzepte führen, stützen sich auf eine Kombination von Begriffen, die aus einer Vielzahl unterschiedlicher Kontexte stammen - von denen viele in jedem spezifischen Kontext nutzlos sind, was das Metamodell unnötig kompliziert und möglicherweise unverständlich macht.

Unserer Ansicht nach sollte eine intelligente Metamodellierung ein Metamodell gewährleisten, das sich an jeden Kontext anpasst und mit der Entwicklung von Anwendungsfällen oder Reifegraden im Laufe der Zeit erweitert werden kann .

Die organische Annäherung an ein Metamodell

Ein Metamodell ist ein Wissensgebiet und die formale Struktur eines Wissensmodells wird als Ontologie bezeichnet .

Eine Ontologie definiert eine Reihe von Objektklassen, ihre Attribute und die Beziehungen zwischen ihnen. In einem universellen Modell ist die Ontologie statisch - die Klassen, die Attribute und die Beziehungen sind vordefiniert, mit unterschiedlichen Abstraktionsgraden und Komplexität.

Actian Data Intelligence Platform hat sich dafür entschieden, nicht auf eine statische Ontologie zu setzen, sondern auf einen skalierbar Wissensgraphen.

Das Metamodell ist daher zu Beginn bewusst einfach gehalten - es gibt nur eine Handvoll Typen, die die verschiedenen Klassen von Informationsgütern (Datenquellen, Datensätze, Felder, Dashboards) repräsentieren und jeweils über einige wesentliche Attribute (Name, Beschreibung, Kontakte) verfügen.

Dieses Metamodell wird automatisch durch die technischen Metadaten gespeist, die aus den Datenquellen extrahiert werden und je nach Technologie variieren (die technischen Metadaten einer Tabelle in einem Data Warehouse unterscheiden sich von den technischen Metadaten einer Datei in einem Daten-Lake).

Diese organische Metamodellierung ist der intelligenteste Weg, um das Thema Ontologie in einem Datenkatalog zu behandeln. Sie bietet in der Tat mehrere Vorteile:

  • Das Metamodell kann sich an jeden Kontext anpassen, wobei es sich häufig auf ein bereits bestehendes Modell stützt und die interne Nomenklatur und Terminologie integriert, ohne dass eine lange und kostspielige Lernkurve erforderlich ist;
  • Das Metamodell muss vor der Verwendung des Datenkatalog nicht vollständig definiert werden - Sie müssen sich nur auf einige Objektklassen und die wenigen notwendigen Attribute konzentrieren, um die ersten Anwendungsfälle abzudecken. Sie können dann das Modell laden, wenn die Einführung des Katalogs im Laufe der Zeit voranschreitet;
  • Das Feedback Nutzer kann schrittweise integriert werden, was die Akzeptanz des Katalogs verbessert und damit den Return on Investment für das Metadaten sicherstellt.

Hinzufügen von funktionalen Attributen zum Metamodell, um die Suche zu vereinfachen

Dieser Metamodellierungsansatz hat erhebliche Vorteile, aber auch einen großen Nachteil: Da das Metamodell völlig dynamisch ist, ist es für die Engine schwierig, die Struktur zu verstehen, und daher auch schwierig, die Benutzer bei der Beschickung des Katalogs und der Nutzung der Daten zu unterstützen (zwei Kernkomponenten eines intelligenten Datenkatalog).

Ein Teil der Lösung bezieht sich auf das Metamodell und die Ontologieattribute. Normalerweise werden Metamodellattribute durch ihre technischen Typen definiert (Datum, Zahl, Zeichenkette, Werteliste usw.). Mit der Actian Data Intelligence Platform umfassen diese Bibliothekstypen natürlich auch diese technischen Typen.

Sie umfassen aber auch funktionale Typen - Qualitätsstufen, Vertraulichkeitsstufen, persönliche Note usw. Diese Funktionstypen ermöglichen es der Plattformmaschine, die Ontologie besser zu verstehen, die Algorithmen zu verfeinern und die Darstellung der Informationen anzupassen.

Für weitere Informationen über Smart Metamodellierung einen Datenkatalog verbessert, laden Sie unser eBook herunter: "Was ist ein Smart Datenkatalog?".

actian avatar logo

Über Actian Corporation

Actian versetzt Unternehmen in die Lage, Daten in großem Umfang sicher zu verwalten und zu steuern. Die Data-Intelligence-Lösungen von Actian helfen beim Optimieren komplexer Datenumgebungen und einer beschleunigten Bereitstellung von KI-fähigen Daten. Actian-Lösungen sind flexibel, lassen sich nahtlos integrieren und arbeiten zuverlässig in On-Premises-, Cloud- und Hybrid-Umgebungen. Erfahren Sie mehr über Actian, die Datenabteilung von HCLSoftware, unter actian.com.