Ein intelligenter Datenkatalog, ein Must-Have für Datenverantwortliche
Actian Germany GmbH
26. August 2020

Der Begriff "smarter Datenkatalog" hat sich in den letzten Monaten zu einem Modewort entwickelt. Die meisten Menschen denken jedoch automatisch an "smart", wenn von etwas die Rede ist, und das zu Rechtan einen Datenkatalog mit ausschließlich Maschinelles Lernen Funktionen.
Wir glauben nicht, dass ein intelligenter Datenkatalog nur auf ML-Funktionen beschränkt ist.
Es gibt viele verschiedene Möglichkeiten, "intelligent" zu sein. Dieser Artikel konzentriert sich auf die Konferenz, die Guillaume Bodet auf dem Data Innovation Summit 2020 hielt: "Intelligente Datenkataloge, ein Muss für Führungskräfte".
Eine kurze Definition von Datenkatalog
Wir definieren einen Datenkatalog wie folgt:
Ein detailliertes Inventar aller Datenbestände in einem Unternehmen und ihrer Metadaten, das Datenexperten helfen soll, schnell die am besten geeigneten Daten für jeden analytischen Geschäftszweck zu finden.
Ein Datenkatalog ist für verschiedene Personen oder Endnutzer. Alle diese Endnutzer haben unterschiedliche Erwartungen, Bedürfnisse, Profile und Wege, Daten zu verstehen. Diese Endnutzer bestehen aus Datenanalysten, Datenverwaltern, Datenwissenschaftlern, Geschäftsanalysten und vielen mehr. Da immer mehr Menschen Daten nutzen und mit ihnen arbeiten, muss ein Datenkatalog für alle Endbenutzer intelligent sein.
Was versteht man unter einem "Datenbestand"?
Ein Vermögenswert wird in der Regel mit einem geschätzten Wert in der Bilanz ausgewiesen. Wenn es um Datenwerte geht, sind sie genauso wichtig, in manchen Fällen sogar noch wichtiger als andere Vermögenswerte des Unternehmens. Das Problem ist, dass der Wert von Datenbeständen nicht immer bekannt ist.
Es gibt jedoch viele Möglichkeiten, den Wert Ihrer Daten zu nutzen. Es gibt die Möglichkeit für Unternehmen, den Wert ihrer Daten direkt zu nutzen, z. B. durch den Verkauf oder den Handel mit ihren Daten. Viele Unternehmen tun dies: Sie bereinigen die Daten, strukturieren sie und verkaufen sie dann.
Unternehmen können auch indirekt aus ihren Daten Wert schöpfen. Datenbestände ermöglichen es Organisationen,:
- Innovation für neue Produkte/Dienstleistungen.
- Verbesserung der Gesamtleistung.
- Verbesserung der Produktpositionierung.
- Märkte/Kunden besser verstehen.
- Steigerung der betrieblichen Effizienz.
Leistungsstarke Unternehmen sind diejenigen, die ihre Datenlandschaft beherrschen und ihre Datenbestände in jedem Aspekt ihrer Tätigkeit nutzen.
Das Schwierige an Datenkatalogen
Wenn Ihr Unternehmen mit Tausenden von Daten zu tun hat, bedeutet das in der Regel, dass Sie möglicherweise mit Daten zu tun haben:
- Hunderte von Systemen, die sowohl interne Daten (Data Warehouses, Anwendungen, Data Lakes, Datenspeicher, APIs usw.) als auch externe Daten von Partnern speichern.
- 1.000 Datensätze, Modelle und Visualisierungen (Datenbestände), die sich aus Tausenden von Feldern zusammensetzen.
- Und diese Felder enthalten Millionen von Attributen (oder Metadaten)!
Ganz zu schweigen von den Hunderten von Nutzern, die sie verwenden...
Dies wirft zwei verschiedene Fragen auf:
Wie kann ich die Qualität meiner Informationen aufbauen, erhalten und durchsetzen, damit meine Endnutzer meinem Katalog vertrauen? |
Wie kann ich schnell Datenbestände für bestimmte Anwendungsfälle finden? |
Die Antwort liegt in intelligenten Datenkatalogen
Wir glauben, dass es fünf Kernbereiche der "Smartness" für einen Datenkatalog gibt. Er muss intelligent sein in seiner:
- Gestaltung: Die Art und Weise, wie Benutzer den Katalog kennenlernen und Informationen konsumieren.
- Nutzer Erfahrung: Wie es sich an verschiedene Profile anpasst.
- Vorräte: Bietet eine intelligente und automatische Art der Inventarisierung.
- Suchmaschine: Unterstützt die verschiedenen Erwartungen und gibt intelligente Vorschläge.
- Metadaten : Ein Katalog, der Daten durch ML-Funktionen kennzeichnet und miteinander verknüpft.
Gehen wir auf jeden dieser Bereiche im Detail ein:
Ein intelligentes Design
Wissensgraph
Ein Datenkatalog mit intelligentem Design verwendet Wissensgraphen anstelle von statischen Ontologien (eine Methode zur Klassifizierung von Informationen, die meist als Hierarchie aufgebaut ist). Das Problem mit Ontologien ist, dass sie sehr schwer zu erstellenund zu pflegen sind, und in der Regel nur bestimmte Arten von Profilen die verschiedenen Klassifizierungen wirklich verstehen.
Ein Wissensgraph hingegen repräsentiert verschiedene Konzepte in einem Datenkatalog und verbindet Objekte durch semantische oder statische Links miteinander. Die Idee eines Wissensgraphen ist es, ein Netzwerk von Objekten aufzubauen und, was noch wichtiger ist, semantische oder funktionale Beziehungen zwischen den verschiedenen Assets in Ihrem Katalog herzustellen.
Grundsätzlich bietet ein intelligenter Datenkatalog den Benutzern eine Möglichkeit, verwandte Objekte zu finden und zu verstehen.
Adaptive Metamodelle
In einem Datenkatalog finden die Benutzer Hunderte von verschiedenen Eigenschaften, von denen einige für manche Benutzer nicht relevant sind. Typischerweise werden zwei Arten von Informationen verwaltet:
- Entitäten: Einfache Objekte, Glossareinträge, Definitionen, Modelle, Richtlinien, Beschreibungen usw.
- Eigenschaften: Die Attribute, die Sie den Entitäten zuordnen (alle zusätzlichen Informationen wie Erstellungsdatum, Datum der letzten Aktualisierung usw.)
Das Design des Metamodells muss dem Datenkonsumenten dienen. Es muss an neue Geschäftsfälle angepasst werden können und so einfach zu verwalten sein, dass die Benutzer es pflegen und verstehen können. Bonuspunkte, wenn es einfach ist, neue Objekttypen und Attributgruppen zu erstellen!
Semantische Attribute
In einem Datenkatalog handelt es sich bei den Attributen des Metamodells meist um technische Eigenschaften. Einige der Attribute eines Objekts umfassen generische Typen wie Text, Zahl, Datum, Werteliste usw. Diese Informationen sind zwar notwendig, aber nicht völlig ausreichend, da sie keine Informationen über die Semantik, also die Bedeutung, enthalten. Dies ist deshalb so wichtig, weil der Katalog mit diesen Informationen die Visualisierung des Attributs anpassen und die Vorschläge für die Benutzer verbessern kann.
Zusammenfassend lässt sich sagen, dass es für den Aufbau eines Datenkatalogkeine Einheitsgröße gibt und dass er sich mit der Zeit weiterentwickeln muss, um neue Datenbereiche und Anwendungsfälle zu unterstützen.
Die Erfahrung eines Smart Nutzer
Wie bereits erwähnt, enthält ein Datenkatalog eine Vielzahl von Informationen, und die Endnutzer haben oft Mühe, die für sie interessanten Informationen zu finden. Die Erwartungen sind je nach Profil unterschiedlich. Ein Data-Scientist wird statistische Informationen erwarten, während ein Compliance-Beauftragter Informationen über verschiedene gesetzliche Regelungen erwartet.
Mit einer intelligenten und adaptiven Nutzer wird ein Datenkatalog die relevantesten Informationen für bestimmte Endnutzer präsentieren. Die Informationshierarchie und die angepassten Suchergebnisse in einem intelligenten Datenkatalog basieren auf:
- Statische Präferenzen: Bereits im Datenkatalog bekannt, wenn das Profil eher auf data science, IT, etc. ausgerichtet ist.
- Dynamisches Profiling: Um zu erfahren, was der Nutzer normalerweise sucht, welche Interessen er hat und wie er den Katalog in der Vergangenheit genutzt hat.
Ein intelligentes Inventarisierungssystem
Die Akzeptanz eines Datenkatalogberuht auf Vertrauen - und Vertrauen kann nur entstehen, wenn sein Inhalt korrekt ist. Da sich die Datenlandschaft in rasantem Tempo bewegt, muss sie mit den operativen Systemen verbunden sein, um die erste Informationsebene der Metadaten über Ihre Datenbestände zu erhalten.
Der Katalog muss seinen Inhalt mit dem tatsächlichen Inhalt der operativen Systeme synchronisieren.
Die typische Architektur eines Katalogs besteht aus Scannern, die Ihre operativen Systeme scannen und Informationen aus verschiedenen QuellenBig Data, noSQL, Cloud, Data Warehouse, etc.) zusammenführen und synchronisieren. Die Idee ist, eine universelle Konnektivität zu haben, damit Unternehmen jede Art von System automatisch scannen und in den Wissensgraphen einfügen können.
In der Actian Data Intelligence Platform gibt es eine Automatisierungsschicht, um die Informationen aus den Systemen in den Katalog zurückzubringen. Das kann:
- Aktualisieren Sie die Anlagen, um physische Veränderungen zu berücksichtigen.
- Erkennen Sie gelöschte oder verschobene Assets.
- Auflösen von Verbindungen zwischen Objekten.
- Wenden Sie Regeln an, um den geeigneten Satz von Attributen auszuwählen und Attributwerte zu definieren.
Eine intelligente Suchmaschine
In einem Datenkatalog ist die Suchmaschine eines der wichtigsten Merkmale. Wir unterscheiden zwischen zwei Arten von Suchen:
- High Intent Search: Der Nutzer weiß bereits, was er sucht und hat genaue Informationen über seine Anfrage. Er hat entweder bereits den Namen des Datensatz oder weiß bereits, wo er zu finden ist. Low Intent Searches werden in der Regel von eher datenaffinen Personen verwendet.
- Suche mit geringer Intention: Der Nutzer weiß nicht genau, wonach er sucht, möchte aber herausfinden, was er in seinem Kontext gebrauchen könnte. Die Suche erfolgt über Schlüsselwörter, und die Nutzer erwarten, dass die relevantesten Ergebnisse angezeigt werden.
Ein intelligenter Datenkatalog muss beide Arten der Suche unterstützen
Sie muss auch eine intelligente Filterung bieten. Sie ist eine notwendige Ergänzung zum Sucherlebnis des Nutzer(insbesondere bei der Low-Intent-Recherche) und ermöglicht es ihm, seine Suchergebnisse einzugrenzen, indem er Attribute ausschließt, die nicht relevant sind. Genau wie bei vielen großen Unternehmen wie Google, Booking.com und Amazon müssen die Filteroptionen an den Inhalt der Suche und das Profil des Nutzerangepasst werden, damit die relevantesten Ergebnisse angezeigt werden.
Intelligentes Metadaten
Intelligente Metadaten ist in der Regel das, was wir als "erweiterten Datenkatalog" bezeichnen, d.h. ein Katalog, der überFunktionen Maschinelles Lernen verfügt, die es ihm ermöglichen, bestimmte Datentypen zu erkennen, Tags oder statistische Regeln auf Daten anzuwenden.
Eine Möglichkeit, Metadaten intelligent zu verwalten, ist die Anwendung der Datenmustererkennung. Die Erkennung von Datenmustern bezieht sich auf die Fähigkeit, ähnliche Assets zu identifizieren, und stützt sich auf statistische Algorithmen und Funktionen , die von anderen Mustererkennungssystemen abgeleitet sind.
Dieses System zur Erkennung von Datenmustern hilft Datenverwaltern bei der Festlegung ihrer Metadaten:
- Identifizieren Sie Duplikate und kopieren Sie Metadaten.
- Erkennen Sie logische Datentypen (E-Mails, Städte, Adressen usw.).
- Vorschlagen von Attributwerten (Erkennen von Dokumentationsmustern, die auf ein ähnliches oder ein neues Objekt angewendet werden können).
- Links vorschlagen - semantische oder Abstammungslinks.
- Erkennen Sie potenzielle Fehler, um die Qualität und Relevanz des Katalogs zu verbessern.
Außerdem hilft es den Datenkonsumenten, ihre Assets zu finden. Die Idee ist, einige Techniken zu verwenden, die von inhaltsbasierten Empfehlungen abgeleitet sind, die in allgemeinen Katalogen zu finden sind. Wenn der Nutzer etwas gefunden hat, schlägt der Katalog Alternativen vor, die sowohl auf seinem Profil als auch auf der Mustererkennung basieren.
Starten Sie IhreMigration
Actian Data Intelligence Platform ist eine 100% Cloud Lösung, die mit wenigen Klicks überall auf der Welt verfügbar ist. Wenn Sie sich für die Actian Data Intelligence Platform entscheiden Datenkatalogkönnen Sie die mit der Implementierung und Pflege eines Datenkatalog verbundenen Kosten kontrollieren und gleichzeitig den Zugang für Ihre Teams vereinfachen.
Die automatischen Zuführungsmechanismen, sowie die Vorschlags- und Korrekturalgorithmen, reduzieren die Gesamtkosten eines Katalogs, und garantieren Ihren Datenteams mit Qualitätsinformationen in Aufzeichnung .
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden: Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.