Was macht einen Datenkatalog "intelligent"? #1 - Metamodellierung
Zusammenfassung
- Datenkataloge müssen verwalten und stetig wachsende Mengen an Metadaten verwalten Metadaten die Kosten und usability Griff behalten.
- Bei einem intelligenten Datenkatalog nicht nur um KI – er hängt auch von Metamodellierung, Dateninventarisierung, Metadaten , Suchfunktionen und Nutzer ab.
- Statische Metamodelle funktionieren nicht gut, da unterschiedliche Benutzer und Kontexte unterschiedliche Arten von Metadaten erfordern.
- Ein organisches, sich weiterentwickelndes Metamodell ermöglicht eine schrittweise Erweiterung und passt sich im Laufe der Zeit an reale Anwendungsfälle an.
- Das Hinzufügen funktionaler Metadaten wie Qualität oder Vertraulichkeit) verbessert die Suchrelevanz und usability allgemeine usability.
A Datenkatalog bündelt enorme Mengen unterschiedlichster Informationen, deren Umfang exponentiell wachsen wird. Dies wird 2 große Herausforderungen mit sich bringen:
- Wie kann das Informationsvolumen eingespeist und gepflegt werden, ohne dass sich die Kosten für die Verwaltung der Metadaten verdreifachen (oder mehr)?
- Wie findet man die wichtigsten Datensätze für einen bestimmten use case?
Wir denken, dass ein Datenkatalog sollte intelligent sein, um diese 2 Fragen zu beantworten, mit intelligenten technologischen und konzeptionellen Eigenschaften, die über die alleinige Integration von KI-Algorithmen hinausgehen.
Diesbezüglich haben wir 5 Bereiche identifiziert, in denen ein Datenkatalog "Smart" sein kann - die meisten davon haben nichts mit Maschinelles Lernen:
- Metamodellierung
- Der Datenbestand
- Verwaltung von Metadaten
- Die Suchmaschine
- Erfahrungen Nutzer
Ein universelles und statisches Metamodell kann nicht intelligent sein
Auf Unternehmensebene können die Metadaten , die erforderlich sind, um die Informationsbestände sinnvoll zu nutzen, beträchtlich sein. Außerdem sind die Metadaten für jede Organisation spezifisch, manchmal sogar für verschiedene Personengruppen innerhalb einer Organisation. Ein Wirtschaftsanalytiker wird beispielsweise nicht unbedingt die gleichen Informationen suchen wie ein Ingenieur oder ein Produktmanager.
Der Versuch, ein universelles Metamodell zu schaffen, erscheint uns daher nicht sehr klug. Ein solches Metamodell müsste sich nämlich an eine Fülle unterschiedlicher Situationen anpassen und würde unweigerlich einer der drei unten genannten Fallstricke zum Opfer fallen:
- Übertriebene Einfachheit, die nicht alle erforderlichen Anwendungsfälle abdeckt.
- Übermäßige Abstraktionsebenen mit dem Potenzial, sich an eine Reihe von Kontexten anzupassen, auf Kosten mühsamer und zeitaufwändiger Training - keine ideale Situation für eine unternehmensweite Deployment.
- Abstraktionsebenen, denen es an Tiefe mangelt und die letztlich zu einer Vielzahl konkreter Konzepte führen, stützen sich auf eine Kombination von Begriffen, die aus einer Vielzahl unterschiedlicher Kontexte stammen - von denen viele in jedem spezifischen Kontext nutzlos sind, was das Metamodell unnötig kompliziert und möglicherweise unverständlich macht.
Unserer Ansicht nach sollte eine intelligente Metamodellierung ein Metamodell gewährleisten, das sich an jeden Kontext anpasst und mit der Entwicklung von Anwendungsfällen oder Reifegraden im Laufe der Zeit erweitert werden kann .
Die organische Annäherung an ein Metamodell
Ein Metamodell ist ein Wissensgebiet und die formale Struktur eines Wissensmodells wird als Ontologie bezeichnet .
Eine Ontologie definiert eine Reihe von Objektklassen, ihre Attribute und die Beziehungen zwischen ihnen. In einem universellen Modell ist die Ontologie statisch - die Klassen, die Attribute und die Beziehungen sind vordefiniert, mit unterschiedlichen Abstraktionsgraden und Komplexität.

Actian Data Intelligence-Plattform , nicht auf eine statische Ontologie, sondern auf einen skalierbar Wissensgraphen zu setzen.
Das Metamodell ist daher zu Beginn bewusst einfach gehalten - es gibt nur eine Handvoll Typen, die die verschiedenen Klassen von Informationsgütern (Datenquellen, Datensätze, Felder, Dashboards) repräsentieren und jeweils über einige wesentliche Attribute (Name, Beschreibung, Kontakte) verfügen.
Dieses Metamodell wird automatisch mit den technischen Metadaten gespeist, die aus den Datenquellen Metadaten ; diese variieren je nach der jeweiligen Technologie (die technischen Metadaten Tabelle in einem Data Warehouse unterscheiden sich von den technischen Metadaten Datei in einem Daten-Lake).

Diese organische Metamodellierung ist der intelligenteste Weg, um das Thema Ontologie in einem Datenkatalog zu behandeln. Sie bietet in der Tat mehrere Vorteile:
- Das Metamodell lässt sich an jeden Kontext anpassen, wobei es häufig auf einem bereits vorhandenen Modell aufbaut und die in-house und Terminologie integriert, ohne dass eine lange und kostspielige Einarbeitungsphase erforderlich ist;
- Das Metamodell muss vor der Nutzung des Datenkatalog nicht vollständig definiert sein Datenkatalog Sie müssen sich lediglich auf einige Objektklassen und die wenigen erforderlichen Attribute konzentrieren, um die anfänglichen Anwendungsfälle abzudecken. Sie können das Modell dann im Laufe der Zeit nach und nach in den Katalog übernehmen.
- Nutzer kann schrittweise integriert werden, wodurch die Akzeptanz des Katalogs verbessert und somit die Rentabilität der Metadaten sichergestellt wird.
Hinzufügen von funktionalen Attributen zum Metamodell, um die Suche zu vereinfachen
Dieser Metamodellierungsansatz hat erhebliche Vorteile, aber auch einen großen Nachteil: Da das Metamodell völlig dynamisch ist, ist es für die Engine schwierig, die Struktur zu verstehen, und daher auch schwierig, die Benutzer bei der Beschickung des Katalogs und der Nutzung der Daten zu unterstützen (zwei Kernkomponenten eines intelligenten Datenkatalog).
Ein Teil der Lösung betrifft das Metamodell und die Ontologieattribute. In der Regel werden Metamodellattribute durch ihre technischen Typen definiert (Datum, Zahl, Zeichenfolge, Werteliste usw.). Bei der Actian Data Intelligence-Plattform umfassen diese Bibliothekstypen natürlich auch diese technischen Typen.
Dazu gehören aber auch funktionale Typen – Qualitätsstufen, Vertraulichkeitsstufen, persönliche Note usw. Diese funktionalen Typen ermöglichen es der Plattform-Engine, die Ontologie besser zu verstehen, die Algorithmen zu verfeinern und die Darstellung der Informationen anzupassen.
Weitere Informationen dazu, wie Smart Metamodeling einen Datenkatalog verbessert, laden Sie unser E-Book herunter: „Was ist ein Smart Datenkatalog?“