Was macht einen Datenkatalog "intelligent"? #1 - Metamodellierung
Actian Germany GmbH
Februar 16, 2022

A Datenkatalog bündelt enorme Mengen unterschiedlichster Informationen - und deren Umfang wird exponentiell wachsen. Dies wird 2 große Herausforderungen mit sich bringen:
- Wie kann das Informationsvolumen eingespeist und gepflegt werden, ohne dass sich die Kosten für die Verwaltung der Metadaten verdreifachen (oder mehr)?
- Wie findet man die wichtigsten Datensätze für einen bestimmten use case?
Wir von Zeenea sind der Meinung, dass ein Datenkatalog Smart sein sollte, um diese 2 Fragen zu beantworten, mit intelligenten technologischen und konzeptionellen Eigenschaften, die über die alleinige Integration von KI-Algorithmen hinausgehen.
In diesem Zusammenhang haben wir 5 Bereiche identifiziert, in denen ein Datenkatalog "Smart" sein kann - die meisten davon haben nichts mit Maschinelles Lernen:
- Metamodellierung
- Der Datenbestand
- Verwaltung von Metadaten
- Die Suchmaschine
- Erfahrungen Nutzer
Ein universelles und statisches Metamodell kann nicht intelligent sein
Auf Unternehmensebene können die Metadaten , die erforderlich sind, um die Informationsbestände sinnvoll zu nutzen, beträchtlich sein. Außerdem sind die Metadaten für jede Organisation spezifisch, manchmal sogar für verschiedene Personengruppen innerhalb einer Organisation. Ein Wirtschaftsanalytiker wird beispielsweise nicht unbedingt die gleichen Informationen suchen wie ein Ingenieur oder ein Produktmanager.
Der Versuch, ein universelles Metamodell zu schaffen, erscheint uns daher nicht sehr klug. Ein solches Metamodell müsste sich nämlich an eine Fülle unterschiedlicher Situationen anpassen und würde unweigerlich einer der drei unten genannten Fallstricke zum Opfer fallen:
- Übertriebene Einfachheit, die nicht alle erforderlichen Anwendungsfälle abdeckt.
- Übermäßige Abstraktionsebenen mit dem Potenzial, sich an eine Reihe von Kontexten anzupassen, was mit mühsamen und zeitaufwändigen training verbunden ist - keine ideale Situation für eine unternehmensweite Deployment.
- Abstraktionsebenen, denen es an Tiefe mangelt und die letztlich zu einer Vielzahl konkreter Konzepte führen, stützen sich auf eine Kombination von Begriffen, die aus einer Vielzahl unterschiedlicher Kontexte stammen - von denen viele in jedem spezifischen Kontext nutzlos sind, was das Metamodell unnötig kompliziert und möglicherweise unverständlich macht.
Unserer Ansicht nach sollte eine intelligente Metamodellierung ein Metamodell gewährleisten, das sich an jeden Kontext anpasst und mit der Entwicklung von Anwendungsfällen oder Reifegraden im Laufe der Zeit erweitert werden kann .
Die organische Annäherung an ein Metamodell
Ein Metamodell ist ein Wissensgebiet und die formale Struktur eines Wissensmodells wird als Ontologie bezeichnet .
Eine Ontologie definiert eine Reihe von Objektklassen, ihre Attribute und die Beziehungen zwischen ihnen. In einem universellen Modell ist die Ontologie statisch - die Klassen, die Attribute und die Beziehungen sind vordefiniert, mit unterschiedlichen Abstraktionsgraden und Komplexität.
Zeenea hat sich dafür entschieden, sich nicht auf eine statische Ontologie zu stützen, sondern auf einen skalierbar Wissensgraphen.
Das Metamodell ist daher zu Beginn bewusst einfach gehalten - es gibt nur eine Handvoll Typen, die die verschiedenen Klassen von Informationsgütern (Datenquellen, Datensätze, Felder, Dashboards) repräsentieren und jeweils über einige wesentliche Attribute (Name, Beschreibung, Kontakte) verfügen.
Dieses Metamodell wird automatisch durch die technischen Metadaten gespeist, die aus den Datenquellen extrahiert werden und je nach Technologie variieren (die technischen Metadaten einer Tabelle in einem Data Warehouse unterscheiden sich von den technischen Metadaten einer Datei in einem Daten-Lake).
Für Zeenea ist diese organische Metamodellierung der intelligenteste Weg, um das Thema Ontologie in einem Datenkatalog zu behandeln. Sie bietet in der Tat mehrere Vorteile:
- Das Metamodell kann sich an jeden Kontext anpassen, wobei es sich häufig auf ein bereits bestehendes Modell stützt und die interne Nomenklatur und Terminologie integriert, ohne dass eine lange und kostspielige Lernkurve erforderlich ist;
- Das Metamodell muss vor der Verwendung des Datenkatalog nicht vollständig definiert werden - Sie müssen sich nur auf einige Objektklassen und die wenigen notwendigen Attribute konzentrieren, um die ersten Anwendungsfälle abzudecken. Sie können dann das Modell laden, wenn die Einführung des Katalogs im Laufe der Zeit voranschreitet;
- Das Feedback Nutzer kann schrittweise integriert werden, was die Akzeptanz des Katalogs verbessert und damit den Return on Investment für das Metadaten sicherstellt.
Hinzufügen von funktionalen Attributen zum Metamodell, um die Suche zu vereinfachen
Dieser Metamodellierungsansatz hat erhebliche Vorteile, aber auch einen großen Nachteil: Da das Metamodell völlig dynamisch ist, ist es für die Engine schwierig, die Struktur zu verstehen, und daher auch schwierig, die Benutzer bei der Beschickung des Katalogs und der Nutzung der Daten zu unterstützen (zwei Kernkomponenten eines intelligenten Datenkatalog).
Ein Teil der Lösung bezieht sich auf das Metamodell und die Ontologieattribute. Normalerweise werden Metamodell-Attribute durch ihre technischen Typen definiert (Datum, Zahl, Zeichenkette, Werteliste usw.). Bei Zeenea umfassen diese Bibliothekstypen natürlich auch diese technischen Typen.
Sie umfassen aber auch funktionale Typen - Qualitätsstufen, Vertraulichkeitsstufen, persönliche Note usw. Diese Funktionstypen ermöglichen es der Zeenea-Maschine, die Ontologie besser zu verstehen, die Algorithmen zu verfeinern und die Darstellung der Informationen anzupassen.
Für weitere Informationen über Smart Metamodellierung einen Datenkatalog aufwertet, laden Sie unser eBook herunter: "Was ist ein Smart Datenkatalog?".
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden - Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.