Was ist ein Datenkatalog?
Ein Datenkatalog ist ein durchsuchbares, strukturiertes Verzeichnis der Datenbestände einer Organisation – darunter Datenbanken, Tabellen, Berichte, Dashboards, APIs und Streaming-Daten – sowie der Metadaten, die die Bedeutung, Herkunft, Qualität und Zuständigkeit für die einzelnen Datenbestände beschreiben.
Für Datenteams löst ein Datenkatalog das Problem der Datenermittlung: die richtigen Daten schnell zu finden, ihre Bedeutung zu verstehen und sich vor ihrer Verwendung auf ihre Richtigkeit verlassen zu können. Für Governance-Teams bietet er die erforderliche Transparenz, um Richtlinien durchzusetzen, die Datenherkunft nachzuverfolgen und die Einhaltung von Vorschriften nachzuweisen. Für KI-Teams ist er die Metadaten-Grundlage, die sicherstellt, dass Sprachmodelle und ML-Pipelines mit semantisch konsistenten, gut dokumentierten Daten arbeiten.
Wie ein Datenkatalog die Data Governance fördert
Der Katalog verbessert die Compliance und Governance, indem sichergestellt wird , dass alle Daten einem Verantwortlichen zugeordnet sind, regelmäßig aktualisiert werden, von hoher Qualität sind und durch rollenbasierte Sicherheitsmechanismen geschützt werden. Spezifische Richtlinien wie Aufbewahrungsfristen, Anforderungen an die Geschäftskontinuität und der geografische Standort können ebenfalls im Katalog dokumentiert werden, um angemessene Governance-Kontrollen durchzusetzen.
Was genau ist ein Datenkatalog?
Ein Datenkatalog ist eine zentrale Plattform, auf der Metadaten zu den Datenbeständen eines Unternehmens oder einer Organisation organisiert und gespeichert werden. Ziel des Katalogs ist es, das Auffinden und den Zugriff auf Daten unternehmensweit zu vereinfachen. Im Folgenden werden einige der wichtigsten Vorteile aufgeführt, die Datenkataloge für Unternehmen bieten.
- Einführung eines klaren Systems von Data Governance.
- Analysten dabei unterstützen, mögliche Probleme und Trends in den Datensätzen zu erkennen.
- Datenverwaltern einen klaren Überblick darüber verschaffen, wo Daten gespeichert sind und wie auf sie zugegriffen wird.
- Vereinfachung der Datensuche.
Welche Art von Metadaten verwaltet ein Datenkatalog?
Ein Datenkatalog kann Metadaten enthalten, die sich auf technische und geschäftliche Aspekte beziehen. Zu den technischen Metadaten können das Erstellungsdatum, das Änderungsdatum, der Datentyp, die Länge, Feldnamen und strukturelle Informationen gehören. Geschäftliche Metadaten liefern Informationen darüber, woher die Daten stammen (ihre Herkunft), wer sie nutzen soll und zu welchen Zwecken.
Wie ein Datenkatalog die Data Governance fördert
Ein Datenkatalog verbessert die Compliance und Governance, indem er sicherstellt, dass alle Daten einen Verantwortlichen haben, regelmäßig aktualisiert werden, von hoher Qualität sind und durch rollenbasierte Sicherheitsmechanismen geschützt werden. Spezifische Richtlinien wie Aufbewahrungsfristen, Anforderungen an die Geschäftskontinuität und der geografische Standort können ebenfalls im Katalog dokumentiert werden, um angemessene Governance-Kontrollen durchzusetzen.
Welche Anwendungen ziehen Nutzen daraus?
Datenanalysten, Dateningenieure und Data-Scientists sind auf hochwertige Datenquellen angewiesen, um sicherzustellen, dass die Ergebnisse ihrer Analysen und Maschinellen Lernmodelle valide sind. Bei der Berichterstattung zur Einhaltung gesetzlicher Vorschriften müssen vertrauenswürdige Datenquellen verwendet werden, da sonst das Risiko besteht, dass Audits nicht bestanden werden und daraus Bußgelder resultieren. Business Intelligence Systeme (BI-Systeme) können den Datenkatalog nutzen, um Daten für das Reporting und die Visualisierung auszuwählen. Daten-Warehouses und Daten-Lakes benötigen technische Informationen über Datenquellen, um geeignete Skripte zur Datenintegration zu erstellen und regelmäßige Datenaktualisierungen zu planen.
Vorteile eines Datenkatalogs
Die wichtigsten Vorteile sind unter anderem:
- Verbesserte Datentransparenz. Ohne diese Möglichkeit verschwenden Nutzer möglicherweise unnötig Zeit damit, bereits vorhandene Datenquellen doppelt zu erstellen.
- Damit Unternehmen den größtmöglichen Nutzen aus ihren Datenbeständen ziehen können. Der Datenkatalog stellt hochwertige Datenquellen vor und regt die Nutzer dazu an, sich auf qualitativ hochwertigere Daten zu konzentrieren.
- Größeres Vertrauen in die Daten dank Metadaten zur Datenherkunft. Da die Nutzer wissen, woher die Daten stammen, können sie fundiertere, datengesteuerte Entscheidungen treffen.
- Durch die Dokumentation der Formate werden die Daten für die Nutzer leichter zugänglich. Datenintegrations- und BI-Tools können die im Datenkatalog enthaltenen Formatinformationen nutzen, um Felder entsprechend dem dokumentierten Datentyp zu verarbeiten. Nur weil ein Feld beispielsweise Zahlen enthält, bedeutet das noch lange nicht, dass es sich nicht um ein Zeichenfeld handelt.
- Fördern Sie die Datenqualität. Jeder Chief Data Officer (CDO) ist daran interessiert, die Datenqualität zu verbessern. Dazu können Qualitätskennzahlen gehören, anhand derer sich Verbesserungen der Datenqualität im Zeitverlauf nachweisen lassen.
- Sicherstellung der Einhaltung gesetzlicher Vorschriften. Prüfungsbeauftragte haben die Aufgabe, Verstöße gegen diese Vorschriften aufzudecken. Der Datenkatalog erleichtert die Prüfungen, indem er dokumentiert, welche Kontrollmaßnahmen für jeden Datensatz bestehen, der der Einhaltung gesetzlicher Vorschriften unterliegt.
- Vermeiden Sie unnötige Datenduplikate. Unkontrollierte Kopien von nicht gepflegten Daten, die als Tabellen per E-Mail weitergegeben werden, ohne dass Metadaten zur Herkunft der Daten vorliegen, sind ein Sicherheitsrisiko. Dadurch lassen sich einige der Risiken mindern, die mit dem unkontrollierten Data Sharing verbunden sind.
- Senkung der Kosten für das Datenmanagement. Richten Sie das Unternehmen darauf aus, ausschließlich sorgfältig ausgewählte Daten von höchster Qualität zu nutzen. Dies trägt dazu bei, dass sich das Unternehmen auf weniger Datenquellen konzentriert, wodurch die Gesamtkosten für die Datenverwaltung gesenkt werden.
- Fördern Sie das Daten-Stewardship. Jedem Datensatz sollte eine Person oder ein Team zugeordnet sein, die bzw. das für die Aufrechterhaltung seiner Qualität und Aktualität verantwortlich ist. Die Einführung eines Datenkatalogs unterstützt Ihre Bemühungen im Bereich des Daten-Stewardship, indem sie es den einzelnen Mitarbeitern erleichtert, auf die Datensätze, für die sie verantwortlich sind, zuzugreifen, diese zu aktualisieren und zu verwalten.
- Data Governance sicherstellen: Datenkataloge können Ihre Bemühungen um Data Governance verbessern, indem sie dem Unternehmen eine zentrale Quelle für Metadaten zur Verfügung stellen, die schlecht verwaltete Datenquellen aufzeigt.
Datenkatalog
Im Allgemeinen betrachten wir den Katalog als Ressource für ein einzelnes Unternehmen. Es gibt jedoch eine neue Art von Open-Daten-Datenkatalog, der mehreren Unternehmen und Organisationen Nutzen bringt. Beispiele hierfür sind:
- Die Financial Industry Regulatory Authority (FINRA) hat einen Datenkatalog veröffentlicht, in dem technische Metadaten für Nutzer ihrer externen Datensätze gespeichert sind.
- Die Weltbank hat einen Datenkatalog entwickelt, um den Umgang mit ihren Entwicklungsdaten zu vereinfachen.
- Die britische Steuerbehörde HMRC (His Majesty’s Revenue and Collections) hat ihren Datenkatalog veröffentlicht, ein Verzeichnis der Datensätze, die die HMRC verwaltet und für die Öffentlichkeit aufbereitet.
Datenkatalog
Eine Datenkatalog-Plattform ist mehr als nur eine Liste von Datenbeständen – sie ist ein umfassendes System, das Metadatenmanagement, Governance-Richtlinien und Funktionen zur Daten-Discovery an einem Ort vereint. Als zentralisierte Plattform ermöglicht sie es Unternehmen, die Datenqualität zu gewährleisten, die teamübergreifende Zusammenarbeit zu fördern und die Einhaltung von Vorschriften sicherzustellen. Eine leistungsstarke Datenkatalog-Plattform lässt sich zudem an die geschäftlichen Anforderungen anpassen und ermöglicht es Unternehmen, strukturierte und unstrukturierte Daten in verschiedenen Umgebungen wie Cloud-, On-Premises- und Hybridsystemen zu verwalten.
Actian Data Platform
Die Actian Data Platform unterstützt multiple data , die in einem Datenkatalog registriert werden können. Für uneingeschränkte Deployment Data Warehouses kann die Actian Data Platform On-Premises auf verschiedenen Cloud gehostet werden. Sie ermöglicht die Bereitstellung Metadaten Datenbankobjekten, wodurch Daten leicht zu finden und zu nutzen sind.
So funktioniert ein Datenkatalog
Ein Datenkatalog durchläuft fünf aufeinanderfolgende Prozesse:
Schritt 1: Automatisierte Metadaten-Erfassung: Der Katalog stellt eine Verbindung zu Datenquellen her – Datenbanken, Daten-Warehouses, Cloud-Speicher, BI Tools/ BI-Tools, APIs – und durchsucht diese automatisch, um technische Metadaten zu erfassen: Tabellennamen, Spaltennamen, Datentypen, Zeilenanzahlen, Null-Raten und Zeitstempel der letzten Aktualisierung. Dies ersetzt die manuelle Bestandsaufnahme, die sich nicht über einige hundert Assets hinaus skalieren lässt.
Schritt 2: Automatisierte Klassifizierung und Profilerstellung: Die erfassten Metadaten werden automatisch nach Typ (strukturiert, halbstrukturiert, unstrukturiert), Vertraulichkeitsstufe (PII, PHI, Finanzdaten, öffentliche Daten) und Bereich (Kunden, Finanzen, Produkte, Betrieb) klassifiziert. Bei der Datenprofilierung werden statistische Zusammenfassungen erstellt: Werteverteilungen, Vollständigkeitswerte, Duplikatsraten und Mustererkennung.
Schritt 3: Anreicherung der Geschäftsmetadaten: Technische Metadaten beschreiben die Struktur. Geschäftliche Metadaten verleihen ihr Bedeutung. In diesem Schritt werden technische Assets mit Begriffen aus dem Geschäftsglossar, Datenverantwortlichen, Nutzungsbeschreibungen und kontextbezogenen Anmerkungen verknüpft. Eine Spalte mit dem Namen cust_acct_flag wird zu „Aktives Konto“ mit einer Definition, einem Eigentümer und einem Link zum Begriff im Geschäftsglossar.
Schritt 4: Nachverfolgung der Datenherkunft: Der Datenkatalog bildet den Datenfluss ab – vom Quellsystem über die Transformation bis hin zum Zielbericht. Die Datenherkunft auf Spaltenebene zeigt genau, welche vorgelagerten Felder zu den einzelnen nachgelagerten Kennzahlen beitragen. Dies ist für Wirkungsanalysen, behördliche Prüfungen und die Nachverfolgbarkeit von KI-Daten erforderlich.
Schritt 5: Suche und Auswertung: Alle erfassten und angereicherten Metadaten werden in einer Suchoberfläche indexiert. Nutzer können nach Begriff, Beschreibung, Eigentümer, Domäne, Tag oder verwandten Konzepten suchen. Die Ergebnisse zeigen die relevantesten und vertrauenswürdigsten Assets an, basierend auf Nutzung, Qualitätsbewertungen und dem Status der Governance-Zertifizierung.
Wesentliche Bestandteile eines Datenkatalogs
Metadaten-Lager: Der zentrale Speicher für alle technischen und geschäftlichen Metadaten. Hier werden Asset-Definitionen, Schema-Details, Eigentumsaufzeichnungen, Klassifizierungs-Tags, Qualitätsbewertungen und Beziehungszuordnungen gespeichert. Die Qualität des Metadaten-Lagers bestimmt die Qualität aller nachgelagerten Funktionen.ntrale Speicher für alle technischen und geschäftlichen Metadaten. Hier werden Asset-Definitionen, Schema-Details, Eigentumsdaten, Klassifizierungs-Tags, Qualitätsbewertungen und Beziehungszuordnungen gespeichert. Die Qualität desLager die Qualität aller nachgelagerten Funktionen.
Integration eines Geschäftsglossars: Verknüpft die physischen Bestände des Katalogs mit genehmigten Definitionen von Geschäftsbegriffen. Wenn ein Nutzer einen Datensatz findet, sollte er die geschäftliche Bedeutung jedes Feldes erkennen können – nicht nur den Spaltennamen. Ohne die Integration eines Geschäftsglossars ist ein Katalog lediglich ein technisches Inventar und keine geregelte Wissensebene.
Data-Lineage-Engine: Verfolgt den Datenfluss von der Quelle bis zur Nutzung. Die Lineage auf Tabellenebene zeigt, welche Datensätze in welche Berichte einfließen. Die Lineage auf Spaltenebene zeigt, welche konkreten Felder zu den einzelnen Berechnungen beitragen. Die unternehmensweite Lineage erfordert Automatisierung – eine manuelle Dokumentation der Lineage kann in Umgebungen mit Hunderten von Datenpipelines nicht auf dem neuesten Stand gehalten werden.
Datenqualitätsprofilierung: Misst und überwacht die Qualität von Datenbeständen anhand definierter Kriterien: Vollständigkeit, Genauigkeit, Beständigkeit, Aktualität und Gültigkeit. Die Qualitätsbewertungen werden in den Suchergebnissen angezeigt, sodass Nutzer bereits vor der Nutzung erkennen können, ob ein Datenbestand vertrauenswürdig ist.
Tools für Zusammenarbeit und Workflows: Ermöglichen es den Nutzern, Datenbestände mit Anmerkungen zu versehen, zu bestätigen, zu kennzeichnen und Fragen dazu zu stellen. Governance-Workflows verwalten die Zertifizierung, die Stilllegung und die Übertragung von Eigentumsrechten. Soziale Signale – wer diesen Datensatz nutzt, wer ihn bestätigt – verbessern die Auffindbarkeit und das Vertrauen.
Zugriffskontroll- und Governance-Richtlinien: Durchsetzung von Datenzugriffsrichtlinien auf Katalogebene: Wer darf welche Assets einsehen, welche Felder werden ausgeblendet, für welche Domänen ist vor dem Zugriff eine Genehmigung erforderlich? Lässt sich in Identitätsmanagementsysteme und Datensicherheitsplattformen integrieren.
Wissensgraph-Ebene: Fortgeschrittene Kataloge nutzen einen Wissensgraphen, um Beziehungen zwischen Assets abzubilden, anstatt diese als flache Aufzeichnungen zu speichern. Dies ermöglicht eine semantische Suche (das Auffinden von Assets nach Konzepten statt nach Stichwörtern), die automatische Erkennung von Beziehungen sowie KI-fähige Metadaten, die von Modellen als vernetzte Wissensebene durchlaufen werden können, anstatt als isolierte Aufzeichnungen abgefragt zu werden.
Datenkatalog vs. Datenwörterbuch vs. Dateninventar
| Datenkatalog | Datenwörterbuch | Datenbestandsaufnahme | |
|---|---|---|---|
| Hauptzweck | Datenbestände im gesamten Unternehmen erfassen, verstehen und verwalten | Technische Spezifikationen einzelner Datenelemente dokumentieren | Datenbestand und Speicherorte erfassen |
| Hauptzielgruppe | Analysten, Dateningenieure, Governance-Teams, Geschäftsnutzer KI-Teams | Dateningenieure, Datenbankadministratoren, Entwickler | Data Governance der Bereiche IT, Compliance und Data Governance |
| Inhalt | Technische und geschäftliche Metadaten, Herkunft, Qualität, Eigentumsverhältnisse, Richtlinien, Beziehungen | Feldnamen, Datentypen, Einschränkungen, Standardwerte, Quelltabellen | Standorte der Anlagen, Anlagenbetreiber, Datenklassifizierungen |
| Durchsuchbar | Ja – semantische Suche und Stichwortsuche über alle Assets hinweg | In der Regel nicht – Referenzdokumentation | In der Regel nicht – Tabellenkalkulations- oder Registrierungsformat |
| Abstammung | Automatisiert, durchgängig | Nicht enthalten | Nicht enthalten |
| KI-Bereitschaft | Hoch — Metadaten , die von KI-Systemen Metadaten | Niedrig | Niedrig |
| Scale | Unternehmensweit, tausende von Anlagen | Pro System oder pro Anwendung | Unternehmensweit, aber oberflächlich |
Die drei Elemente ergänzen sich gegenseitig. Ein Dateninventar gibt Aufschluss darüber, über welche Daten Sie verfügen. Ein Datenwörterbuch erläutert die technische Bedeutung der einzelnen Felder. Ein Datenkatalog verbindet beide Ebenen miteinander und sorgt dafür, dass die Daten auffindbar, steuerbar und in großem Maßstab nutzbar sind.
Acht Vorteile eines Datenkatalogs
(Dies bezieht sich direkt auf den Vorsprung, den Actian mit 29,4 % bereits innehat – die Formalisierung auf einer Hub-Seite festigt und diese Position weiter ausbaut.)
1. Schnellere Daten-Discovery:Analysten Analysten finden den richtigen Datensatz innerhalb von Minuten statt in Stunden oder Tagen. Die semantische Suche zeigt Datenbestände anhand ihrer geschäftlichen Bedeutung an, nicht nur anhand des Tabellennamens. Anhand von Nutzungs- und Empfehlungssignalen werden vertrauenswürdige Datenbestände vor weniger bekannten priorisiert.
2. Weniger Engpässe beim Data Engineering: Wenn Nutzer Daten selbstständig finden, verstehen und darauf zugreifen können, müssen sie keine Supportanfragen mehr stellen, in denen sie Data Engineers bitten, Datensätze ausfindig zu machen oder zu erklären. Die Self-Service-Datensuche entlastet die technischen Teams im Supportbereich.
3. Einheitliches Reporting und weniger Definitionsstreitigkeiten: Wenn alle Analysten denselben regulierten Datensatz mit derselben Geschäftsdefinition verwenden, liefern Dashboards einheitliche Zahlen. Widersprüchliche Berichte – die häufigste Ursache für Glaubwürdigkeitsprobleme bei Analytics – werden bereits an der Quelle beseitigt.
4. Beschleunigte Einhaltung gesetzlicher Vorschriften:Durch die Rückverfolgung der Datenherkunftund die Datenklassifizierung erfolgt die Dokumentation der Compliance automatisch statt manuell. Auskunftsersuchen betroffener Personen, Folgenabschätzungen bei Datenschutzverletzungen und Prüfungsnachweise werden aus Metadaten generiert, Metadaten aus „Stammwissen“ rekonstruiert zu werden.
5. Bessere Transparenz hinsichtlich der Datenqualität: Qualitätsbewertungen werden bereits in den Suchergebnissen angezeigt, bevor Nutzer die Daten nutzen. Inhalte von schlechter Qualität werden gekennzeichnet, anstatt unbemerkt in Berichte und KI-Modelle übernommen zu werden. Qualitätsprobleme lösen Stewardship-Workflows aus, anstatt erst später entdeckt zu werden.
6. KI- und ML-Bereitschaft: Sprachmodelleund ML-Pipelines erfordern metadatenreiche, semantisch konsistente Eingabedaten. Ein Datenkatalog liefert die Informationen zu Herkunft, Klassifizierung, Eigentumsverhältnissen und Verknüpfungen zum Geschäftsglossar, die Unternehmensdaten für KI bereit machen. Ohne Metadaten des Datenkatalogs können KI-Systeme nicht zuverlässig zwischen semantisch ähnlichen, aber technisch unterschiedlichen Datensätzen unterscheiden.
7. Durchsetzung der Data Governance in großem Maßstab: Zugriffsrichtlinien, Zugriffsrichtlinien, Datenklassifizierungen und Daten-Stewardship-Workflows werden auf Katalogebene umgesetzt und automatisch statt manuell durchgesetzt. Mit wachsendem Datenvolumen ist ein kontrollierter Zugriff ohne Richtlinienverwaltung auf Katalogebene nicht mehr realisierbar.
8. Schnellere Erkenntnisse: Durch die Kombinationausschnellerer Datenermittlung, weniger Definitionsstreitigkeiten und Self-Service verkürzt sich die Zeit von der Fragestellung bis zur Antwort direkt. Unternehmen mit ausgereiften Datenkatalogen berichten von deutlich kürzeren Analysezyklen im Vergleich zu solchen, die auf informellen Datenaustausch und manuelle Dokumentation setzen.
Anzeichen dafür, dass Ihr Unternehmen einen Datenkatalog benötigt
- Analysten verbringen mehr als 20 % ihrer Zeit damit, Daten zu finden und zu verstehen, anstatt sie zu analysieren.
- Verschiedene Teams geben für dieselbe Kennzahl unterschiedliche Zahlen aus verschiedenen Dashboards an.
- Dateningenieure erhalten regelmäßig Anfragen, Datensätze zu erläutern oder ausfindig zu machen.
- Compliance-Teams können ohne manuelle Rekonstruktion keine Herkunftsnachweise erstellen.
- KI- und ML-Projekte verzögern sich, weil die Teams die Herkunft oder Qualität der Training-Daten nicht überprüfen können.
- Neue Mitarbeiter brauchen Wochen, um zu verstehen, welche Datenquellen vertrauenswürdig sind und wie sie darauf zugreifen können.
- Durch eine Cloud-Migration, eine Fusion oder eine Systemkonsolidierung entstanden sich überschneidende oder uneinheitlich benannte Datensätze.
Worauf Sie bei einer Datenkatalog-Plattform achten sollten
Neun Kriterien für die Unternehmensbewertung:
1. Automatisierte Metadaten-Erfassung : Der Katalog sollte eine Verbindung zu Ihren bestehenden Quellen herstellen – Cloud-Daten-Warehouses, Datenbanken, BI Tools/ BI-Tools, Daten-Lakes, Streaming-Plattformen – und Metadaten automatisch nach einem festgelegten Zeitplan erfassen. Die manuelle Eingabe von Metadaten ist nicht skalierbar.
2. Tiefe der Herkunftsverfolgung: Prüfen Sie, ob die Datenherkunft nur auf Tabellenebene oder auch auf Spaltenebene vorliegt. Eine Datenherkunft auf Spaltenebene ist für das Reporting, die Einhaltung gesetzlicher Vorschriften und die Nachverfolgbarkeit von KI-Daten erforderlich. Eine Datenherkunft auf Tabellenebene reicht für die meisten Use Cases im Bereich der Data Governance nicht aus.
3. Integration des Fachsglossars: Der Katalog und das Fachglossar sollten auf dem Daten-Layer miteinander verknüpft sein – es sollte sich nicht um eine Dokumentation mit Querverweisen handeln. Ein Nutzer, der von einem Datensatz aus navigiert, sollte zur Definition des genehmigten Fachbegriffs gelangen, ohne den Katalog verlassen zu müssen.
4. Architektur des Wissensgraphen: Kataloge, die auf einem Wissensgraphen basieren, stellen Beziehungen zwischen Assets semantisch dar, anstatt flache Aufzeichnungen zu speichern. Dies ermöglicht eine genauere Suche, die automatische Erkennung von Beziehungen sowie KI-fähige Metadaten, die als vernetzte Wissensschicht durchlaufen werden können.
5. Integration der Datenqualität: Qualitätsbewertungen sollten automatisch berechnet und in den Suchergebnissen angezeigt werden, anstatt manuell von Administratoren hinzugefügt zu werden. Der Datenkatalog sollte die Definition von Qualitätsregeln, die automatisierte Profilerstellung und das Verwalten von Problem-Workflows unterstützen.
6. KI- und LLM-Bereitschaft: Die Metadaten des Katalogs sollten für KI-Systeme über eine strukturierte API oder eine MCP-Server-Integration zugänglich sein. Da KI-Agenten in den Data Workflows von Unternehmen zunehmend zum Standard werden, werden Kataloge, die nicht als Grundlage für diese Agenten dienen können, überflüssig.
7. Verbundarchitektur: Unternehmensumgebungen erstrecken sich über mehrere Clouds, Regionen und Geschäftsbereiche. Ein Verbundkatalog verwaltet Metadaten direkt vor Ort – ohne dass eine zentrale Kopie der Daten erforderlich ist – und bietet eine einheitliche Suchebene für verteilte Quellen.
8. Konzept zur Akzeptanzförderung: Ein Katalog, in dem sich nur technische Nutzer zurechtfinden, wird nicht zu einer Self-Service-Erkundung und der Akzeptanz von Governance führen, die die Investition rechtfertigen. Rollenspezifische Benutzeroberflächen für Geschäftsanwender und Dateningenieure in Verbindung mit eingebetteten Erkundungsfunktionen in BI-Tools und Analyseplattformen entscheiden darüber, ob der Katalog tatsächlich genutzt wird.
9. Integration von Governance-Workflows: Workflows für Zertifizierung, Deaktivierung, Zugriffsanfragen und Verwaltung sollten in den Katalog integriert und nicht extern verwaltet werden. Bei Governance-Prozessen, bei denen Nutzer den Katalog verlassen müssen, um einen Workflow abzuschließen, sind die Abschlussquoten geringer.
Ein Datenkatalog hilft den Nutzern dabei, die Datenbestände eines Unternehmens zu finden, indem er angereicherte Metadaten bereitstellt.
Der Datenkatalog ermöglicht es einem Unternehmen, Nutzer zu den qualitativ hochwertigsten und vertrauenswürdigsten Daten im Unternehmen zu leiten. Er verbessert die Data Governance, da unkontrollierte Daten weggelassen oder als Quelle minderer Qualität gekennzeichnet werden können. Datenwildwuchs ist für viele Unternehmen ein großes Problem, da Nutzer häufig Kopien von Daten erstellen, die sie weder pflegen noch aktualisieren. Der Datenkatalog leitet Nutzer zu gut gepflegten und vertrauenswürdigen Datenquellen. Entscheidungen auf der Grundlage veralteter Daten können zu negativen Ergebnissen führen. Ohne einen Datenkatalog kann ein Unternehmen viel Zeit und Aufwand mit der Suche nach benötigten Daten verschwenden, was sich negativ auf Produktivität und Rentabilität auswirkt.
Wichtigste Erkenntnisse

FAQ
Ein Datenkatalog ist ein durchsuchbares Verzeichnis aller Daten, über die ein Unternehmen verfügt – Datenbanken, Berichte, Dashboards und mehr –, mit Beschreibungen dazu, was die einzelnen Datenelemente bedeuten, wem sie gehören, wie vertrauenswürdig sie sind und in welchem Zusammenhang sie zu anderen Daten stehen. Er bietet Analysten, Entwicklern und Nutzern einen gemeinsamen Überblick über die Datenlandschaft des Unternehmens.
Ein Daten-Warehouse speichert Daten. Ein Datenkatalog dokumentiert und verwaltet Daten. Ein Daten-Warehouse enthält die eigentlichen Aufzeichnungen; ein Katalog enthält Metadaten zu diesen Aufzeichnungen – was sie bedeuten, woher sie stammen, wem sie gehören und wie sie mit Geschäftsdefinitionen verknüpft sind. Die meisten Unternehmen nutzen beides: das Daten-Warehouse als Speicherschicht und den Katalog als darüberliegende Schicht für die Erfassung und Verwaltung.
Ein Daten-Lake speichert große Mengen an Rohdaten, die noch nicht verarbeitet wurden. Ein Datenkatalog organisiert und verwaltet den Inhalt eines Daten-Lakes – sowie aller anderen Datenquellen –, indem er Metadaten, Herkunftsinformationen, Qualitätsbewertungen und geschäftlichen Kontext hinzufügt. Ohne einen Katalog wird ein Daten-Lake zu einem Datensumpf: Die Daten sind zwar vorhanden, lassen sich jedoch nicht zuverlässig finden, verstehen oder als vertrauenswürdig einstufen.
Unternehmen mit weniger als 50 Datenbeständen und einem einzigen Datenteam können in der Regel ohne einen formellen Datenkatalog verwalten. Sobald ein Unternehmen jedoch über mehrere Datenquellen verfügt, mehrere Teams Daten nutzen oder gesetzliche Auflagen eine dokumentierte Datenherkunft erfordern, übersteigen die Kosten, die durch das Fehlen eines Katalogs entstehen – in Form von Zeitaufwand für Analysten, Fehlern im Reporting und Compliance-Risiken –, in der Regel die Kosten für die Einführung eines solchen Katalogs.
Eine gezielte Implementierung, die sich auf vorrangige Datenbereiche konzentriert, dauert in der Regel 4 bis 8 Wochen für das Deployment und die Erfassung von Metadaten. Die vollständige Abdeckung des Unternehmens – die Anbindung aller Quellen, die Anreicherung von Geschäftsmetadaten und die Förderung der Akzeptanz in allen Teams – ist eher ein fortlaufendes Programm als ein einmaliges Projekt.
KI-Systeme benötigen metadatenreiche, semantisch konsistente Daten, um zuverlässige Ergebnisse zu liefern. Ein Datenkatalog bildet die Provenienzebene: Er dokumentiert, woher die Training-Daten stammen, wie sie transformiert wurden, welche Geschäftsbegriffe für welche Felder gelten und ob die Qualitätsschwellenwerte gekannt werden. Ohne Katalog-Metadaten können KI-Teams grundlegende Fragen zu ihren Training-Daten nicht beantworten – was zu Prüfungsrisiken, Compliance-Risiken und Problemen hinsichtlich der Modellzuverlässigkeit führt.
Ein aktiver Metadatenkatalog geht über die reine Dokumentation hinaus und löst auf der Grundlage von Metadatensignalen bestimmte Aktionen aus. Sinkt der Datenqualitätswert unter einen Schwellenwert, wird automatisch ein Stewardship-Ticket eröffnet. Ändert sich das Schema eines Datensatzes, werden die nachgelagerten Verantwortlichen benachrichtigt. Wird ein neuer Datensatz hinzugefügt, werden automatisch verwandte Begriffe und Verantwortliche vorgeschlagen. Aktive Metadaten verwandeln den Katalog von einem Nachschlagewerk in eine operative Governance-Ebene.