Datenmanagement

Was ist ein Datenkatalog? Definition, Komponenten und Funktionsweise

Was ist ein Datenkatalog?

Ein Datenkatalog ist ein durchsuchbares, strukturiertes Verzeichnis der Datenbestände einer Organisation – darunter Datenbanken, Tabellen, Berichte, Dashboards, APIs und Streaming-Daten – sowie der Metadaten, die die Bedeutung, Herkunft, Qualität und Zuständigkeit für die einzelnen Datenbestände beschreiben.

For data teams, a catalog solves the discovery problem: finding the right data quickly, understanding what it means, and trusting that it is accurate before using it. For governance teams, it provides the visibility layer needed to enforce policies, track lineage, and demonstrate compliance. For AI teams, it is the metadata foundation that ensures language models and ML pipelines are working with semantically consistent, well-documented data.

For definitions of data catalog, metadata, lineage, stewardship, and the other core concepts covered in this guide, see the data catalog glossary.

Wie ein Datenkatalog die Data Governance fördert

Der Katalog verbessert die Compliance und Governance, indem sichergestellt wird , dass alle Daten einem Verantwortlichen zugeordnet sind, regelmäßig aktualisiert werden, von hoher Qualität sind und durch rollenbasierte Sicherheitsmechanismen geschützt werden. Spezifische Richtlinien wie Aufbewahrungsfristen, Anforderungen an die Geschäftskontinuität und der geografische Standort können ebenfalls im Katalog dokumentiert werden, um angemessene Governance-Kontrollen durchzusetzen.

Was genau ist ein Datenkatalog?

Ein Datenkatalog ist eine zentrale Plattform, auf der Metadaten zu den Datenbeständen eines Unternehmens oder einer Organisation organisiert und gespeichert werden. Ziel des Katalogs ist es, das Auffinden und den Zugriff auf Daten unternehmensweit zu vereinfachen. Im Folgenden werden einige der wichtigsten Vorteile aufgeführt, die Datenkataloge für Unternehmen bieten.

Einführung eines klaren Systems von Data Governance.
Analysten dabei unterstützen, mögliche Probleme und Trends in den Datensätzen zu erkennen.
Datenverwaltern einen klaren Überblick darüber verschaffen, wo Daten gespeichert sind und wie auf sie zugegriffen wird.
Vereinfachung der Datensuche.

Welche Art von Metadaten verwaltet ein Datenkatalog?

A data catalog can contain metadata that pertains to technical and business aspects. Technical metadata can include creation date, modification date, data type, length, field names, and structural information. Business metadata provides context on where it came from (its lineage), who should use it, and for what purposes.

Wie ein Datenkatalog die Data Governance fördert

Ein Datenkatalog verbessert die Compliance und Governance, indem er sicherstellt, dass alle Daten einen Verantwortlichen haben, regelmäßig aktualisiert werden, von hoher Qualität sind und durch rollenbasierte Sicherheitsmechanismen geschützt werden. Spezifische Richtlinien wie Aufbewahrungsfristen, Anforderungen an die Geschäftskontinuität und der geografische Standort können ebenfalls im Katalog dokumentiert werden, um angemessene Governance-Kontrollen durchzusetzen.

Welche Anwendungen ziehen Nutzen daraus?

Datenanalysten, Dateningenieure und Data-Scientists sind auf hochwertige Datenquellen angewiesen, um sicherzustellen, dass die Ergebnisse ihrer Analysen und Maschinellen Lernmodelle valide sind. Bei der Berichterstattung zur Einhaltung gesetzlicher Vorschriften müssen vertrauenswürdige Datenquellen verwendet werden, da sonst das Risiko besteht, dass Audits nicht bestanden werden und daraus Bußgelder resultieren. Business Intelligence Systeme (BI-Systeme) können den Datenkatalog nutzen, um Daten für das Reporting und die Visualisierung auszuwählen. Daten-Warehouses und Daten-Lakes benötigen technische Informationen über Datenquellen, um geeignete Skripte zur Datenintegration zu erstellen und regelmäßige Datenaktualisierungen zu planen.

Vorteile eines Datenkatalogs

Die wichtigsten Vorteile sind unter anderem:

Verbesserte Datentransparenz. Ohne diese Möglichkeit verschwenden Nutzer möglicherweise unnötig Zeit damit, bereits vorhandene Datenquellen doppelt zu erstellen.
Damit Unternehmen den größtmöglichen Nutzen aus ihren Datenbeständen ziehen können. Der Datenkatalog stellt hochwertige Datenquellen vor und regt die Nutzer dazu an, sich auf qualitativ hochwertigere Daten zu konzentrieren.
Größeres Vertrauen in die Daten dank Metadaten zur Datenherkunft. Da die Nutzer wissen, woher die Daten stammen, können sie fundiertere, datengesteuerte Entscheidungen treffen.
Durch die Dokumentation der Formate werden die Daten für die Nutzer leichter zugänglich. Datenintegrations- und BI-Tools können die im Datenkatalog enthaltenen Formatinformationen nutzen, um Felder entsprechend dem dokumentierten Datentyp zu verarbeiten. Nur weil ein Feld beispielsweise Zahlen enthält, bedeutet das noch lange nicht, dass es sich nicht um ein Zeichenfeld handelt.
Fördern Sie die Datenqualität. Jeder Chief Data Officer (CDO) ist daran interessiert, die Datenqualität zu verbessern. Dazu können Qualitätskennzahlen gehören, anhand derer sich Verbesserungen der Datenqualität im Zeitverlauf nachweisen lassen.
Enforce regulatory compliance. Auditors are charged with looking for lapses in compliance. The catalog makes audits easier by documenting what controls are in place for each data set subject to regulatory compliance enforcement.
Vermeiden Sie unnötige Datenduplikate. Unkontrollierte Kopien von nicht gepflegten Daten, die als Tabellen per E-Mail weitergegeben werden, ohne dass Metadaten zur Herkunft der Daten vorliegen, sind ein Sicherheitsrisiko. Dadurch lassen sich einige der Risiken mindern, die mit dem unkontrollierten Data Sharing verbunden sind.
Senkung der Kosten für das Datenmanagement. Richten Sie das Unternehmen darauf aus, ausschließlich sorgfältig ausgewählte Daten von höchster Qualität zu nutzen. Dies trägt dazu bei, dass sich das Unternehmen auf weniger Datenquellen konzentriert, wodurch die Gesamtkosten für die Datenverwaltung gesenkt werden.
Fördern Sie das Daten-Stewardship. Jedem Datensatz sollte eine Person oder ein Team zugeordnet sein, die bzw. das für die Aufrechterhaltung seiner Qualität und Aktualität verantwortlich ist. Die Einführung eines Datenkatalogs unterstützt Ihre Bemühungen im Bereich des Daten-Stewardship, indem sie es den einzelnen Mitarbeitern erleichtert, auf die Datensätze, für die sie verantwortlich sind, zuzugreifen, diese zu aktualisieren und zu verwalten.
Data Governance sicherstellen: Datenkataloge können Ihre Bemühungen um Data Governance verbessern, indem sie dem Unternehmen eine zentrale Quelle für Metadaten zur Verfügung stellen, die schlecht verwaltete Datenquellen aufzeigt.

Organizations that need to go beyond discovery into governed data exchange typically extend their catalog with a data marketplace layer. See the data marketplace glossary for definitions of data products, data contracts, and self-service access.

Datenkatalog

Im Allgemeinen betrachten wir den Katalog als Ressource für ein einzelnes Unternehmen. Es gibt jedoch eine neue Art von Open-Daten-Datenkatalog, der mehreren Unternehmen und Organisationen Nutzen bringt. Beispiele hierfür sind:

Die Financial Industry Regulatory Authority (FINRA) hat einen Datenkatalog veröffentlicht, in dem technische Metadaten für Nutzer ihrer externen Datensätze gespeichert sind.
Die Weltbank hat einen Datenkatalog entwickelt, um den Umgang mit ihren Entwicklungsdaten zu vereinfachen.
Die britische Steuerbehörde HMRC (His Majesty’s Revenue and Collections) hat ihren Datenkatalog veröffentlicht, ein Verzeichnis der Datensätze, die die HMRC verwaltet und für die Öffentlichkeit aufbereitet.

Datenkatalog

Eine Datenkatalog-Plattform ist mehr als nur eine Liste von Datenbeständen – sie ist ein umfassendes System, das Metadatenmanagement, Governance-Richtlinien und Funktionen zur Daten-Discovery an einem Ort vereint. Als zentralisierte Plattform ermöglicht sie es Unternehmen, die Datenqualität zu gewährleisten, die teamübergreifende Zusammenarbeit zu fördern und die Einhaltung von Vorschriften sicherzustellen. Eine leistungsstarke Datenkatalog-Plattform lässt sich zudem an die geschäftlichen Anforderungen anpassen und ermöglicht es Unternehmen, strukturierte und unstrukturierte Daten in verschiedenen Umgebungen wie Cloud-, On-Premises- und Hybridsystemen zu verwalten.

Actian Analytics AI Platform

Actian Analytics AI Platform can be used to support multiple data stores that can be registered in a data catalog. For complete data warehouse deployment flexibility, the platform can be hosted on-premises or on multiple cloud platforms. It can be used to provide metadata associated with database objects, making data easy to find and use.

So funktioniert ein Datenkatalog

Ein Datenkatalog durchläuft fünf aufeinanderfolgende Prozesse:

Schritt 1: Automatisierte Metadaten-Erfassung: Der Katalog stellt eine Verbindung zu Datenquellen her – Datenbanken, Daten-Warehouses, Cloud-Speicher, BI Tools/ BI-Tools, APIs – und durchsucht diese automatisch, um technische Metadaten zu erfassen: Tabellennamen, Spaltennamen, Datentypen, Zeilenanzahlen, Null-Raten und Zeitstempel der letzten Aktualisierung. Dies ersetzt die manuelle Bestandsaufnahme, die sich nicht über einige hundert Assets hinaus skalieren lässt.

Schritt 2: Automatisierte Klassifizierung und Profilerstellung: Die erfassten Metadaten werden automatisch nach Typ (strukturiert, halbstrukturiert, unstrukturiert), Vertraulichkeitsstufe (PII, PHI, Finanzdaten, öffentliche Daten) und Bereich (Kunden, Finanzen, Produkte, Betrieb) klassifiziert. Bei der Datenprofilierung werden statistische Zusammenfassungen erstellt: Werteverteilungen, Vollständigkeitswerte, Duplikatsraten und Mustererkennung.

Schritt 3: Anreicherung der Geschäftsmetadaten: Technische Metadaten beschreiben die Struktur. Geschäftliche Metadaten verleihen ihr Bedeutung. In diesem Schritt werden technische Assets mit Begriffen aus dem Geschäftsglossar, Datenverantwortlichen, Nutzungsbeschreibungen und kontextbezogenen Anmerkungen verknüpft. Eine Spalte mit dem Namen cust_acct_flag wird zu „Aktives Konto“ mit einer Definition, einem Eigentümer und einem Link zum Begriff im Geschäftsglossar.

Schritt 4: Nachverfolgung der Datenherkunft: Der Datenkatalog bildet den Datenfluss ab – vom Quellsystem über die Transformation bis hin zum Zielbericht. Die Datenherkunft auf Spaltenebene zeigt genau, welche vorgelagerten Felder zu den einzelnen nachgelagerten Kennzahlen beitragen. Dies ist für Wirkungsanalysen, behördliche Prüfungen und die Nachverfolgbarkeit von KI-Daten erforderlich.

Schritt 5: Suche und Auswertung: Alle erfassten und angereicherten Metadaten werden in einer Suchoberfläche indexiert. Nutzer können nach Begriff, Beschreibung, Eigentümer, Domäne, Tag oder verwandten Konzepten suchen. Die Ergebnisse zeigen die relevantesten und vertrauenswürdigsten Assets an, basierend auf Nutzung, Qualitätsbewertungen und dem Status der Governance-Zertifizierung.

Wesentliche Bestandteile eines Datenkatalogs

Metadaten-Lager: Der zentrale Speicher für alle technischen und geschäftlichen Metadaten. Hier werden Asset-Definitionen, Schema-Details, Eigentumsaufzeichnungen, Klassifizierungs-Tags, Qualitätsbewertungen und Beziehungszuordnungen gespeichert. Die Qualität des Metadaten-Lagers bestimmt die Qualität aller nachgelagerten Funktionen.ntrale Speicher für alle technischen und geschäftlichen Metadaten. Hier werden Asset-Definitionen, Schema-Details, Eigentumsdaten, Klassifizierungs-Tags, Qualitätsbewertungen und Beziehungszuordnungen gespeichert. Die Qualität desLager die Qualität aller nachgelagerten Funktionen.

Integration eines Geschäftsglossars: Verknüpft die physischen Bestände des Katalogs mit genehmigten Definitionen von Geschäftsbegriffen. Wenn ein Nutzer einen Datensatz findet, sollte er die geschäftliche Bedeutung jedes Feldes erkennen können – nicht nur den Spaltennamen. Ohne die Integration eines Geschäftsglossars ist ein Katalog lediglich ein technisches Inventar und keine geregelte Wissensebene.

Data-Lineage-Engine: Verfolgt den Datenfluss von der Quelle bis zur Nutzung. Die Lineage auf Tabellenebene zeigt, welche Datensätze in welche Berichte einfließen. Die Lineage auf Spaltenebene zeigt, welche konkreten Felder zu den einzelnen Berechnungen beitragen. Die unternehmensweite Lineage erfordert Automatisierung – eine manuelle Dokumentation der Lineage kann in Umgebungen mit Hunderten von Datenpipelines nicht auf dem neuesten Stand gehalten werden.

Datenqualitätsprofilierung: Misst und überwacht die Qualität von Datenbeständen anhand definierter Kriterien: Vollständigkeit, Genauigkeit, Beständigkeit, Aktualität und Gültigkeit. Die Qualitätsbewertungen werden in den Suchergebnissen angezeigt, sodass Nutzer bereits vor der Nutzung erkennen können, ob ein Datenbestand vertrauenswürdig ist.

Tools für Zusammenarbeit und Workflows: Ermöglichen es den Nutzern, Datenbestände mit Anmerkungen zu versehen, zu bestätigen, zu kennzeichnen und Fragen dazu zu stellen. Governance-Workflows verwalten die Zertifizierung, die Stilllegung und die Übertragung von Eigentumsrechten. Soziale Signale – wer diesen Datensatz nutzt, wer ihn bestätigt – verbessern die Auffindbarkeit und das Vertrauen.

Zugriffskontroll- und Governance-Richtlinien: Durchsetzung von Datenzugriffsrichtlinien auf Katalogebene: Wer darf welche Assets einsehen, welche Felder werden ausgeblendet, für welche Domänen ist vor dem Zugriff eine Genehmigung erforderlich? Lässt sich in Identitätsmanagementsysteme und Datensicherheitsplattformen integrieren.

Wissensgraph-Ebene: Fortgeschrittene Kataloge nutzen einen Wissensgraphen, um Beziehungen zwischen Assets abzubilden, anstatt diese als flache Aufzeichnungen zu speichern. Dies ermöglicht eine semantische Suche (das Auffinden von Assets nach Konzepten statt nach Stichwörtern), die automatische Erkennung von Beziehungen sowie KI-fähige Metadaten, die von Modellen als vernetzte Wissensebene durchlaufen werden können, anstatt als isolierte Aufzeichnungen abgefragt zu werden.

Datenkatalog vs. Datenwörterbuch vs. Dateninventar

	Datenkatalog	Datenwörterbuch	Datenbestandsaufnahme
Hauptzweck	Datenbestände im gesamten Unternehmen erfassen, verstehen und verwalten	Technische Spezifikationen einzelner Datenelemente dokumentieren	Datenbestand und Speicherorte erfassen
Hauptzielgruppe	Analysten, Dateningenieure, Governance-Teams, Geschäftsnutzer KI-Teams	Dateningenieure, Datenbankadministratoren, Entwickler	Data Governance der Bereiche IT, Compliance und Data Governance
Inhalt	Technische und geschäftliche Metadaten, Herkunft, Qualität, Eigentumsverhältnisse, Richtlinien, Beziehungen	Feldnamen, Datentypen, Einschränkungen, Standardwerte, Quelltabellen	Standorte der Anlagen, Anlagenbetreiber, Datenklassifizierungen
Durchsuchbar	Ja – semantische Suche und Stichwortsuche über alle Assets hinweg	In der Regel nicht – Referenzdokumentation	In der Regel nicht – Tabellenkalkulations- oder Registrierungsformat
Abstammung	Automatisiert, durchgängig	Nicht enthalten	Nicht enthalten
KI-Bereitschaft	Hoch — Metadaten , die von KI-Systemen Metadaten	Niedrig	Niedrig
Scale	Unternehmensweit, tausende von Anlagen	Pro System oder pro Anwendung	Unternehmensweit, aber oberflächlich

Die drei Elemente ergänzen sich gegenseitig. Ein Dateninventar gibt Aufschluss darüber, über welche Daten Sie verfügen. Ein Datenwörterbuch erläutert die technische Bedeutung der einzelnen Felder. Ein Datenkatalog verbindet beide Ebenen miteinander und sorgt dafür, dass die Daten auffindbar, steuerbar und in großem Maßstab nutzbar sind.

Acht Vorteile eines Datenkatalogs

(Dies bezieht sich direkt auf den Vorsprung, den Actian mit 29,4 % bereits innehat – die Formalisierung auf einer Hub-Seite festigt und diese Position weiter ausbaut.)

1. Schnellere Daten-Discovery:Analysten Analysten finden den richtigen Datensatz innerhalb von Minuten statt in Stunden oder Tagen. Die semantische Suche zeigt Datenbestände anhand ihrer geschäftlichen Bedeutung an, nicht nur anhand des Tabellennamens. Anhand von Nutzungs- und Empfehlungssignalen werden vertrauenswürdige Datenbestände vor weniger bekannten priorisiert.

2. Weniger Engpässe beim Data Engineering: Wenn Nutzer Daten selbstständig finden, verstehen und darauf zugreifen können, müssen sie keine Supportanfragen mehr stellen, in denen sie Data Engineers bitten, Datensätze ausfindig zu machen oder zu erklären. Die Self-Service-Datensuche entlastet die technischen Teams im Supportbereich.

3. Einheitliches Reporting und weniger Definitionsstreitigkeiten: Wenn alle Analysten denselben regulierten Datensatz mit derselben Geschäftsdefinition verwenden, liefern Dashboards einheitliche Zahlen. Widersprüchliche Berichte – die häufigste Ursache für Glaubwürdigkeitsprobleme bei Analytics – werden bereits an der Quelle beseitigt.

4. Beschleunigte Einhaltung gesetzlicher Vorschriften:Durch die Rückverfolgung der Datenherkunftund die Datenklassifizierung erfolgt die Dokumentation der Compliance automatisch statt manuell. Auskunftsersuchen betroffener Personen, Folgenabschätzungen bei Datenschutzverletzungen und Prüfungsnachweise werden aus Metadaten generiert, Metadaten aus „Stammwissen“ rekonstruiert zu werden.

5. Bessere Transparenz hinsichtlich der Datenqualität: Qualitätsbewertungen werden bereits in den Suchergebnissen angezeigt, bevor Nutzer die Daten nutzen. Inhalte von schlechter Qualität werden gekennzeichnet, anstatt unbemerkt in Berichte und KI-Modelle übernommen zu werden. Qualitätsprobleme lösen Stewardship-Workflows aus, anstatt erst später entdeckt zu werden.

6. KI- und ML-Bereitschaft: Sprachmodelleund ML-Pipelines erfordern metadatenreiche, semantisch konsistente Eingabedaten. Ein Datenkatalog liefert die Informationen zu Herkunft, Klassifizierung, Eigentumsverhältnissen und Verknüpfungen zum Geschäftsglossar, die Unternehmensdaten für KI bereit machen. Ohne Metadaten des Datenkatalogs können KI-Systeme nicht zuverlässig zwischen semantisch ähnlichen, aber technisch unterschiedlichen Datensätzen unterscheiden.

7. Durchsetzung der Data Governance in großem Maßstab: Zugriffsrichtlinien, Zugriffsrichtlinien, Datenklassifizierungen und Daten-Stewardship-Workflows werden auf Katalogebene umgesetzt und automatisch statt manuell durchgesetzt. Mit wachsendem Datenvolumen ist ein kontrollierter Zugriff ohne Richtlinienverwaltung auf Katalogebene nicht mehr realisierbar.

8. Schnellere Erkenntnisse: Durch die Kombinationausschnellerer Datenermittlung, weniger Definitionsstreitigkeiten und Self-Service verkürzt sich die Zeit von der Fragestellung bis zur Antwort direkt. Unternehmen mit ausgereiften Datenkatalogen berichten von deutlich kürzeren Analysezyklen im Vergleich zu solchen, die auf informellen Datenaustausch und manuelle Dokumentation setzen.

Anzeichen dafür, dass Ihr Unternehmen einen Datenkatalog benötigt

Analysten verbringen mehr als 20 % ihrer Zeit damit, Daten zu finden und zu verstehen, anstatt sie zu analysieren.
Verschiedene Teams geben für dieselbe Kennzahl unterschiedliche Zahlen aus verschiedenen Dashboards an.
Dateningenieure erhalten regelmäßig Anfragen, Datensätze zu erläutern oder ausfindig zu machen.
Compliance-Teams können ohne manuelle Rekonstruktion keine Herkunftsnachweise erstellen.
KI- und ML-Projekte verzögern sich, weil die Teams die Herkunft oder Qualität der Training-Daten nicht überprüfen können.
Neue Mitarbeiter brauchen Wochen, um zu verstehen, welche Datenquellen vertrauenswürdig sind und wie sie darauf zugreifen können.
Durch eine Cloud-Migration, eine Fusion oder eine Systemkonsolidierung entstanden sich überschneidende oder uneinheitlich benannte Datensätze.

Worauf Sie bei einer Datenkatalog-Plattform achten sollten

Neun Kriterien für die Unternehmensbewertung:

1. Automatisierte Metadaten-Erfassung : Der Katalog sollte eine Verbindung zu Ihren bestehenden Quellen herstellen – Cloud-Daten-Warehouses, Datenbanken, BI Tools/ BI-Tools, Daten-Lakes, Streaming-Plattformen – und Metadaten automatisch nach einem festgelegten Zeitplan erfassen. Die manuelle Eingabe von Metadaten ist nicht skalierbar.

2. Tiefe der Herkunftsverfolgung: Prüfen Sie, ob die Datenherkunft nur auf Tabellenebene oder auch auf Spaltenebene vorliegt. Eine Datenherkunft auf Spaltenebene ist für das Reporting, die Einhaltung gesetzlicher Vorschriften und die Nachverfolgbarkeit von KI-Daten erforderlich. Eine Datenherkunft auf Tabellenebene reicht für die meisten Use Cases im Bereich der Data Governance nicht aus.

3. Integration des Fachsglossars: Der Katalog und das Fachglossar sollten auf dem Daten-Layer miteinander verknüpft sein – es sollte sich nicht um eine Dokumentation mit Querverweisen handeln. Ein Nutzer, der von einem Datensatz aus navigiert, sollte zur Definition des genehmigten Fachbegriffs gelangen, ohne den Katalog verlassen zu müssen.

4. Architektur des Wissensgraphen: Kataloge, die auf einem Wissensgraphen basieren, stellen Beziehungen zwischen Assets semantisch dar, anstatt flache Aufzeichnungen zu speichern. Dies ermöglicht eine genauere Suche, die automatische Erkennung von Beziehungen sowie KI-fähige Metadaten, die als vernetzte Wissensschicht durchlaufen werden können.

5. Integration der Datenqualität: Qualitätsbewertungen sollten automatisch berechnet und in den Suchergebnissen angezeigt werden, anstatt manuell von Administratoren hinzugefügt zu werden. Der Datenkatalog sollte die Definition von Qualitätsregeln, die automatisierte Profilerstellung und das Verwalten von Problem-Workflows unterstützen.

6. KI- und LLM-Bereitschaft: Die Metadaten des Katalogs sollten für KI-Systeme über eine strukturierte API oder eine MCP-Server-Integration zugänglich sein. Da KI-Agenten in den Data Workflows von Unternehmen zunehmend zum Standard werden, werden Kataloge, die nicht als Grundlage für diese Agenten dienen können, überflüssig.

7. Verbundarchitektur: Unternehmensumgebungen erstrecken sich über mehrere Clouds, Regionen und Geschäftsbereiche. Ein Verbundkatalog verwaltet Metadaten direkt vor Ort – ohne dass eine zentrale Kopie der Daten erforderlich ist – und bietet eine einheitliche Suchebene für verteilte Quellen.

8. Konzept zur Akzeptanzförderung: Ein Katalog, in dem sich nur technische Nutzer zurechtfinden, wird nicht zu einer Self-Service-Erkundung und der Akzeptanz von Governance führen, die die Investition rechtfertigen. Rollenspezifische Benutzeroberflächen für Geschäftsanwender und Dateningenieure in Verbindung mit eingebetteten Erkundungsfunktionen in BI-Tools und Analyseplattformen entscheiden darüber, ob der Katalog tatsächlich genutzt wird.

9. Integration von Governance-Workflows: Workflows für Zertifizierung, Deaktivierung, Zugriffsanfragen und Verwaltung sollten in den Katalog integriert und nicht extern verwaltet werden. Bei Governance-Prozessen, bei denen Nutzer den Katalog verlassen müssen, um einen Workflow abzuschließen, sind die Abschlussquoten geringer.

Ein Datenkatalog hilft den Nutzern dabei, die Datenbestände eines Unternehmens zu finden, indem er angereicherte Metadaten bereitstellt.

Der Datenkatalog ermöglicht es einem Unternehmen, Nutzer zu den qualitativ hochwertigsten und vertrauenswürdigsten Daten im Unternehmen zu leiten. Er verbessert die Data Governance, da unkontrollierte Daten weggelassen oder als Quelle minderer Qualität gekennzeichnet werden können. Datenwildwuchs ist für viele Unternehmen ein großes Problem, da Nutzer häufig Kopien von Daten erstellen, die sie weder pflegen noch aktualisieren. Der Datenkatalog leitet Nutzer zu gut gepflegten und vertrauenswürdigen Datenquellen. Entscheidungen auf der Grundlage veralteter Daten können zu negativen Ergebnissen führen. Ohne einen Datenkatalog kann ein Unternehmen viel Zeit und Aufwand mit der Suche nach benötigten Daten verschwenden, was sich negativ auf Produktivität und Rentabilität auswirkt.

Wichtigste Erkenntnisse

Die wichtigsten Erkenntnisse zum Datenkatalog

FAQ

Ein Datenkatalog ist ein durchsuchbares Verzeichnis aller Daten, über die ein Unternehmen verfügt – Datenbanken, Berichte, Dashboards und mehr –, mit Beschreibungen dazu, was die einzelnen Datenelemente bedeuten, wem sie gehören, wie vertrauenswürdig sie sind und in welchem Zusammenhang sie zu anderen Daten stehen. Er bietet Analysten, Entwicklern und Nutzern einen gemeinsamen Überblick über die Datenlandschaft des Unternehmens.

Ein Daten-Warehouse speichert Daten. Ein Datenkatalog dokumentiert und verwaltet Daten. Ein Daten-Warehouse enthält die eigentlichen Aufzeichnungen; ein Katalog enthält Metadaten zu diesen Aufzeichnungen – was sie bedeuten, woher sie stammen, wem sie gehören und wie sie mit Geschäftsdefinitionen verknüpft sind. Die meisten Unternehmen nutzen beides: das Daten-Warehouse als Speicherschicht und den Katalog als darüberliegende Schicht für die Erfassung und Verwaltung.

Ein Daten-Lake speichert große Mengen an Rohdaten, die noch nicht verarbeitet wurden. Ein Datenkatalog organisiert und verwaltet den Inhalt eines Daten-Lakes – sowie aller anderen Datenquellen –, indem er Metadaten, Herkunftsinformationen, Qualitätsbewertungen und geschäftlichen Kontext hinzufügt. Ohne einen Katalog wird ein Daten-Lake zu einem Datensumpf: Die Daten sind zwar vorhanden, lassen sich jedoch nicht zuverlässig finden, verstehen oder als vertrauenswürdig einstufen.

Unternehmen mit weniger als 50 Datenbeständen und einem einzigen Datenteam können in der Regel ohne einen formellen Datenkatalog verwalten. Sobald ein Unternehmen jedoch über mehrere Datenquellen verfügt, mehrere Teams Daten nutzen oder gesetzliche Auflagen eine dokumentierte Datenherkunft erfordern, übersteigen die Kosten, die durch das Fehlen eines Katalogs entstehen – in Form von Zeitaufwand für Analysten, Fehlern im Reporting und Compliance-Risiken –, in der Regel die Kosten für die Einführung eines solchen Katalogs.

Eine gezielte Implementierung, die sich auf vorrangige Datenbereiche konzentriert, dauert in der Regel 4 bis 8 Wochen für das Deployment und die Erfassung von Metadaten. Die vollständige Abdeckung des Unternehmens – die Anbindung aller Quellen, die Anreicherung von Geschäftsmetadaten und die Förderung der Akzeptanz in allen Teams – ist eher ein fortlaufendes Programm als ein einmaliges Projekt.

KI-Systeme benötigen metadatenreiche, semantisch konsistente Daten, um zuverlässige Ergebnisse zu liefern. Ein Datenkatalog bildet die Provenienzebene: Er dokumentiert, woher die Training-Daten stammen, wie sie transformiert wurden, welche Geschäftsbegriffe für welche Felder gelten und ob die Qualitätsschwellenwerte gekannt werden. Ohne Katalog-Metadaten können KI-Teams grundlegende Fragen zu ihren Training-Daten nicht beantworten – was zu Prüfungsrisiken, Compliance-Risiken und Problemen hinsichtlich der Modellzuverlässigkeit führt.

Ein aktiver Metadatenkatalog geht über die reine Dokumentation hinaus und löst auf der Grundlage von Metadatensignalen bestimmte Aktionen aus. Sinkt der Datenqualitätswert unter einen Schwellenwert, wird automatisch ein Stewardship-Ticket eröffnet. Ändert sich das Schema eines Datensatzes, werden die nachgelagerten Verantwortlichen benachrichtigt. Wird ein neuer Datensatz hinzugefügt, werden automatisch verwandte Begriffe und Verantwortliche vorgeschlagen. Aktive Metadaten verwandeln den Katalog von einem Nachschlagewerk in eine operative Governance-Ebene.

Actian Data Intelligence-Plattform Neu

Kernfunktionen

AI Analyst New

Explore AI Analyst

Actian Data Observability Neu

Kernfunktionen

Jaspersoft New

Datenbanken

Produkte

Analytics AI Platform

Kernfunktionen

Datenintegration

Produkte

Produktübersicht

Alle Produkte

Was ist ein Datenkatalog? Definition, Komponenten und Funktionsweise

Was ist ein Datenkatalog?