Verschiedene Arten der Datenherkunft und ihre Funktionsweise

#Daten Data Governance #Datenintelligenz Metadaten

#Daten Data Governance #Datenintelligenz Metadaten

Zusammenfassung

Erklärt, was Datenherkunft ist und warum es wichtig ist, ihre Arten zu verstehen.
Unterteilt die wichtigsten Arten von Abstammungslinien: geschäftlich, technisch und operativ.
Hebt hervor, wie jeder Abstammungstyp Governance, Vertrauen und Compliance unterstützt.
Leitfaden zur Verwendung der einzelnen Abstammungsansätze basierend auf Datenreife und Risiko.
Zeigt, wie Actian eine durchgängige, dynamische Datenherkunft in großem Maßstab unterstützt.

Im Datenmanagement ist die Implementierung der Datenherkunft von entscheidender Bedeutung. Einfach ausgedrückt verfolgt die Datenherkunft den Migration Daten: woher sie stammen, wie sie fließen, wie sie transformiert werden und wie sie letztendlich genutzt werden.

In diesem Artikel befassen wir uns mit den verschiedenen Arten der Datenherkunft: Was sie sind, warum sie wichtig sind, wie sie sich voneinander unterscheiden und wann Unternehmen sie benötigen. Außerdem gehen wir darauf ein, wie Sie einen Ansatz wählen, der auf den Reifegrad und die Anforderungen Ihres Unternehmens im Bereich Datenmanagement abgestimmt ist.

Warum es wichtig ist, die verschiedenen Arten der Datenherkunft zu verstehen

Bevor wir uns näher mit den Typen befassen, ist es hilfreich zu verstehen, warum die Unterscheidung zwischen den Typen wichtig ist. Und zwar aus folgenden Gründen:

Zielgruppe und Zweck unterscheiden sich. Die Art von Datenherkunft, die für einen technischen Ingenieur nützlich ist, der sich mit Tabellen-zu-Tabellen-Transformationen befasst, unterscheidet sich von der Art von Datenherkunft, die für einen Business-Analysten nützlich ist, der sich dafür interessiert, wie ein KPI abgeleitet wurde.
Die Granularität variiert. Manche Abstammungslinien sind grob, wie z. B. System → System, während andere feinkörnig sind, wie Spalte → Spalte, Zeile → Zeile. Zu wissen, welche Abstammungslinie Sie benötigen, hilft Ihnen dabei, den Umfang Ihrer Arbeit einzugrenzen.
Governance, Compliance, Auditierung und Vertrauen. Der richtige Lineage-Typ unterstützt die Einhaltung gesetzlicher Vorschriften wie der Datenschutz-Grundverordnung (DSGVO) und des Health Insurance Portability and Accountability Act (HIPAA) sowie Data Governance das allgemeine Vertrauen in Analysen.
Auswirkungen auf Technologie und Tools. Unterschiedliche Arten von Lineage erfordern unter Umständen unterschiedliche Tools, wie beispielsweise Datenkataloge, Betriebsprotokolle und Graphdatenbanken. Die Wahl des richtigen Typs hilft Ihnen bei der Entscheidung, wie Sie Tools entwickeln oder anschaffen.

4 Haupttypen der Datenherkunft

Die Datenherkunft lässt sich in mehrere Haupttypen unterteilen. Es gibt zwar gewisse Überschneidungen in der Terminologie, doch die gängigsten Kategorien sind:

1. Herkunft der Geschäftsdaten

Dieser Ansatz, der auch als „semantische Datenherkunft“ bezeichnet wird, konzentriert sich darauf, wie Daten im geschäftlichen Kontext genutzt werden, und nicht darauf, wie sie intern von technischen Teams verwendet werden.

Was diese Art von Abstammungslinie widerspiegelt

Wie Geschäftskennzahlen oder KPIs abgeleitet werden. So wird beispielsweise die „Kundenabwanderungsrate“ anhand bestimmter zugrunde liegender Tabellen definiert und berechnet.
Welche Berichte, Dashboards oder Geschäftsprozesse nutzen die Daten?
Wer ist auf Unternehmensebene für die Daten verantwortlich oder trägt die Verantwortung dafür?
Allgemeine Datenflüsse, wie z. B. Quellsysteme → Data Warehouse → Deployment, ohne jedoch notwendigerweise alle technischen Details zu berücksichtigen.

Wer nutzt diese Art von Stammbaum?

Business-Analysten, Datenverwalter und Compliance-Teams.
Für Audit- und Governance-Zwecke, wenn Sie geschäftliche Definitionen mit technischen Umsetzungen in Einklang bringen müssen.
Wenn Sie erklären müssen, warum eine Zahl in einem dashboard so dashboard , wie sie aussieht.
Bei der Erfüllung gesetzlicher oder datenschutzrechtlicher Anforderungen.

Diese Art der Datenherkunft hilft nicht-technischen Stakeholdern, die Herkunft der Daten nachzuvollziehen und den Datenausgaben zu vertrauen. Sie gewährleistet die Übereinstimmung zwischen geschäftlichen Definitionen und der tatsächlichen Funktionsweise der technischen Systeme und unterstützt die Wirkungsanalyse. Wenn sich ein Geschäftsprozess ändert, können Sie erkennen, welche Datenflüsse und Kennzahlen davon betroffen sein könnten.

2. Technische Daten – Herkunft

Diese Art, die manchmal auch als physische Abstammungslinie, horizontale Abstammungslinie oder einfach als Abstammungslinie auf Pipeline-Ebene bezeichnet wird, befasst sich eingehend mit den Mechanismen, nach denen Daten bewegt, transformiert und gespeichert werden.

Was diese Art von Abstammungslinie widerspiegelt

Datenübertragung zwischen Systemen: Extrahieren → Transformieren → Laden (ETL), Datenpipelines, Batch-Jobs und Streaming .
Details wie Tabellen, Dateien, Spalten, Schemata, Transformationslogik, Zuordnungen und Abhängigkeiten.
Die Infrastruktur und die Systeme, über die die Daten physisch übertragen werden.

Wer nutzt diese Art von Stammbaum?

Dateningenieure, Datenarchitekten und Betriebsteams.
Wenn Sie Pipelines debuggen, Abhängigkeiten nachvollziehen und Migrationen oder Systemänderungen planen müssen.
Wenn Sie Fragen beantworten müssen wie: „Wenn ich Tabelle A ändere, welche nachgelagerten Tabellen und Dashboards sind davon betroffen?“

Diese Art der Datenherkunft bietet eine detaillierte Rückverfolgbarkeit und ermöglicht so die Analyse der Ursachen von Problemen. Wenn beispielsweise ein dashboard falsche Zahlen dashboard , können Sie das Problem bis zu der Transformation zurückverfolgen, die den Fehler verursacht hat.

Die Abfolge hilft dabei, die Leistung zu überwachen, Pipelines zu optimieren und unerwartete Nebenwirkungen bei Systemänderungen zu vermeiden. Außerdem unterstützt sie das Änderungsmanagement, da man die Auswirkungen von Änderungen in vorgelagerten Systemen simulieren kann.

Ein kurzes Beispiel

So zeigt beispielsweise die technische Abstammung, dass die Tabelle „orders_cleaned“ durch eine Verknüpfung von „raw_orders“ und „customer_info“, die Anwendung eines Filters und einer Transformation sowie die Speicherung der Ergebnisse in einem Daten-Lakeund anschließend in die Star-Schema „fact_orders“ eingespeist wurden.

Einschränkungen

Die Detailfülle kann überwältigend sein – für manche Beteiligte vielleicht zu viel.
Die Erfassung und Pflege detaillierter Abstammungsdaten ist ressourcenintensiv.
Ohne Verknüpfung zu geschäftlichen Definitionen reicht die technische Herkunftsnachverfolgung allein möglicherweise nicht aus, um die Anforderungen an die Governance oder die geschäftliche Transparenz zu erfüllen.

3. Operative (oder Laufzeit-)Datenherkunft

Es handelt sich hierbei um eine relativ neue Klassifizierung, die das Verhalten von Daten zur Laufzeit erfasst. Der Schwerpunkt liegt auf der Beobachtung von Datenflüssen während ihrer Ausführung in Live- oder Near-Live-Systemen. Einige technisch versierte Anwender bezeichnen dies als „Operational Lineage“ oder „Real-Time Lineage“.

Was diese Art von Abstammungslinie widerspiegelt

Ausführungsprotokolle von Pipelines: wann der Auftrag ausgeführt wurde, wie lange er gedauert hat und wie viele Daten übertragen wurden.
Anomalien, Fehler und Leistungskennzahlen im Zusammenhang mit Transformationen.
Verfolgung von Datenbewegungen in Echtzeit oder nahezu in Echtzeit, häufig für Streaming .
Überwachung von Datenprozessen im Gegensatz zu statischen Definitionen.

Wer nutzt diese Art von Stammbaum?

Datenteams, Site Reliability Engineers (SREs) und DevOps für Daten.
Teams, die Datenpipelines hinsichtlich Leistung, Ausfällen, Latenz und Aktualität überwachen.
Prüfungs- oder Compliance-Teams, die wissen müssen, wann Daten zuletzt aktualisiert wurden oder wann sich eine Pipeline geändert hat.

Diese Art der Datenherkunft unterstützt Beobachtbarkeit. Sie wissen, wie die Datenherkunft aussehen sollte und wie sie tatsächlich verlaufen ist. Außerdem hilft sie bei der Reaktion auf Vorfälle. Wenn beispielsweise eine Pipeline ausfällt oder sich verzögert, zeigt die operative Datenherkunft, an welcher Stelle es zu einer Blockade gekommen ist. Schließlich trägt die operative Datenherkunft dazu bei, die Aktualität und Zuverlässigkeit von Datenbeständen zu gewährleisten, indem sichergestellt wird, dass die Datensätze auf dem neuesten Stand bleiben.

4. Weniger verbreitete Untertypen (Design, physisch, logisch, auf Spaltenebene)

Über diese drei Hauptkategorien hinaus beschreiben viele Frameworks weitere „Typen“ oder Untertypen der Datenherkunft. Es ist hilfreich, diese als Varianten oder Weiterentwicklungen der Kerntypen zu betrachten.

Entwurfs- (oder logische) Abstammung

Erfasst die beabsichtigten oder geplanten Datenflüsse: wie Daten sich bewegen, umwandeln und integrieren sollen. Dies wird häufig während der Systemkonzeption oder -integration festgelegt.
Es geht weniger darum, was tatsächlich passiert ist, sondern vielmehr darum, was geplant war.
Nützlich bei der Systemkonzeption, bei Migrationen oder bei der Dokumentation von Altsystemen.

Physische vs. logische Herkunft

Physische Abstammung. Konzentriert sich auf konkrete Dateien, Tabellen, Speicher und Systeme, ähnlich wie die technische Abstammung
Logische Herkunft. Abstraktionen auf höherer Ebene, z. B. wie Daten abgeleitet werden, anstatt wie genau sie bewegt wurden.

Abstammung auf Spaltenebene (oder Feldebene)

Es ist äußerst detailliert und verfolgt, wie sich einzelne Spalten oder Felder – und manchmal auch einzelne Zeilen – bei Transformationen auswirken.
Nützlich für risikoreiche Bereiche wie das Finanzwesen und das Gesundheitswesen, in denen genau nachvollziehbar sein muss, wie ein Wert berechnet wurde.

Lückenlose Rückverfolgbarkeit

In vielen Frameworks vereint eine „End-to-End“-Linage-Ansicht geschäftliche, technische und betriebliche Perspektiven und liefert so einen umfassenden Überblick vom Quellsystem bis hin zur Nutzung.

Vergleich der Arten der Datenherkunft

Nachfolgend finden Sie eine Vergleichstabelle, in der die wichtigsten Abstammungslinien nach wesentlichen Merkmalen zusammengefasst sind:

Stammbaumtyp	Schwerpunkt / Umfang	Typische Nutzer	Die wichtigsten Vorteile	Zentrale Herausforderungen
Unternehmensgeschichte	Übersichtsstrukturen, Geschäftsdefinitionen, Berichte, Dashboards	Business-Analysten, Datenverwalter, Compliance-Teams	Bringt Geschäft und Daten in Einklang, fördert Vertrauen und Governance	Es mangelt möglicherweise an technischen Details; eine Zusammenarbeit zwischen Wirtschaft und Technik ist erforderlich
Technische (physikalische) Abstammungslinie	System-zu-System, Tabellen/Felder, ETL-Pipelines	Dateningenieure, Architekten	Detaillierte Rückverfolgbarkeit, unterstützt die Wirkungsanalyse und die Fehlersuche	Erfordert Metadaten umfangreiche Metadaten , was schnell überwältigend sein kann
Operative Abstammung	Ausführungsabläufe, Protokolle und Metriken in Echtzeit bzw. nahezu in Echtzeit	DevOps-/SRE- und Data-Ops-Teams	Verbessert Beobachtbarkeit, unterstützt die Überwachung und sorgt für Aktualität	Infrastruktur-Overhead, möglicherweise ist eine Integration mit anderen Ansichten erforderlich
Entwurf / Physisch / Logisch / Spaltenebene	Ansichten zu Varianten: geplante Abläufe, Abstraktionsebene, Details auf Feldebene	Architekten, Data Governance	Unterstützt Migrationen und detaillierte Protokollierung	Sehr aufwendig und ressourcenintensiv; erfordert möglicherweise Spezialwerkzeuge

Wann ist welche Art von Datenherkunft zu verwenden?

Die Wahl der richtigen Art der Datenherkunft hängt vom Reifegrad, den Zielen und dem Risikoprofil Ihres Unternehmens ab. Hier sind einige Szenarien:

Ihr Unternehmen steht gerade am Anfang einer Data Governance . Beginnen Sie mit der Business Lineage. Ordnen Sie wichtige Geschäftskennzahlen Datenquellen und zentralen Berichten zu und stellen Sie sicher, dass die Geschäftsanwender verstehen, was sie nutzen.
Sie verfügen über eine komplexe Datenarchitektur, beispielsweise mit zahlreichen Pipelines, Transformationen und Systemen. Die technische Herkunftsverfolgung wird wichtig, damit Sie Abhängigkeiten nachverfolgen und vor Änderungen eine Auswirkungsanalyse durchführen können.
Ihr Unternehmen benötigt Daten in Echtzeit, verfügt über Streaming oder muss den Zustand der Pipelines überwachen. Fügen Sie eine operative Herkunftsverfolgung hinzu, damit Sie Ausfälle, Latenzzeiten oder Anomalien schnell erkennen können.
Sie sind in einem risikoreichen Bereich tätig, beispielsweise im Finanzwesen, im Gesundheitswesen oder in einer regulierten Branche. Erwägen Sie die Einführung einer Herkunftsverfolgung auf Spaltenebene oder einer detaillierten Herkunftsverfolgung, um Audit- und regulatorische Anforderungen zu erfüllen.
Sie migrieren Systeme, konsolidieren Data Warehouses oder implementieren eine neue Architektur. Design-/logische Abstammung ist nützlich, um den „beabsichtigten“ Datenfluss zu erfassen und diesen mit dem tatsächlichen Ablauf zu vergleichen.

In vielen Fällen sollten innerhalb eines Unternehmens verschiedene Arten von Datenherkunftsdaten nebeneinander bestehen. Für eine umfassende Lösung ist es oft wünschenswert, dass geschäftliche, technische und betriebliche Herkunftsdaten miteinander verknüpft werden.

Überlegungen zur Umsetzung

Hier sind einige wichtige praktische Überlegungen zur Umsetzung einer Initiative zur Datenherkunft:

Metadaten und entsprechende Tools

Um eine Herkunftsverfolgung zu erstellen, benötigen Sie genaue Metadaten, wie z. B. Datenquellen, Transformationslogik, Schemadetails, Jobprotokolle usw.
Wählen Sie Tools, die zu der von Ihnen gewünschten Art der Datenherkunft passen. Dies können Datenkataloge für die geschäftliche Datenherkunft oder Pipeline-Überwachungssysteme für die operative Datenherkunft sein.
Automatisieren Sie, wo immer es möglich ist. Die manuelle Dokumentation der Herkunftsdaten ist fehleranfällig und schwer zu pflegen.

Detaillierungsgrad und Umfang

Entscheiden Sie im Voraus, welche Detailebene Sie benötigen, beispielsweise auf System-, Tabellen-, Spalten- oder Zeilenebene. Eine zu grobe Ebene ist möglicherweise nicht aussagekräftig genug. Eine zu feine Ebene kann hingegen überwältigend sein.
Konzentrieren Sie sich zunächst auf besonders wertvolle Datenbestände wie kritische Systeme und regulierte Daten, anstatt von Anfang an alle Bestände abdecken zu wollen.

Stakeholder

Achten Sie bei der Geschäftsabbildung darauf, dass sich die fachlichen und technischen Teams über die Definitionen abstimmen. Vermeiden Sie eine semantische Drift, d. h. wenn die Bedeutung von Fachbegriffen von deren Umsetzung abweicht.
Stellen Sie sicher, dass Dateningenieure, Betriebsteams sowie Governance- und Stewardship-Teams im Hinblick auf die technische und operative Herkunft der Daten zusammenarbeiten.

Visualisierung und Barrierefreiheit

Datenherkunft ist nur dann von Nutzen, wenn sie für die Nutzer sichtbar und nutzbar ist. Grafische Herkunftskarten, wie Flussdiagramme und Abhängigkeitsdiagramme, erleichtern das Verständnis.
Passen Sie die Ansicht an die Zielgruppe an. Geschäftsanwender wünschen sich wahrscheinlich eine vereinfachte, übergeordnete Ansicht, während Techniker einen detaillierten Einblick in die wichtigsten Probleme benötigen.

Wartung und Verwaltung

Die Datenherkunft muss stets auf dem neuesten Stand gehalten werden, da sich Systeme, Pipelines und Geschäftslogik ändern. Ohne Pflege veraltet sie und führt zu Fehlinterpretationen.
Richten Sie Governance-Prozesse für Datenverantwortliche, Datenverwalter, Dokumentationsstandards und Workflows für das Änderungsmanagement ein.

Actian Data Intelligence-Plattform dynamische Datenherkunft

Die Datenherkunft ist eine grundlegende Funktion für moderne data-driven . Doch nicht jede Datenherkunft ist gleich. Es ist entscheidend, die verschiedenen Arten der Datenherkunft zu verstehen:

(Semantische) Datenherkunft verbindet Daten mit ihrem geschäftlichen Kontext und den Nutzern.
Technische (physische) Herkunft verfolgt die praktischen Aspekte von Bewegung und Transformation während des gesamten Lebenszyklus Datensatz.
Operative (Laufzeit-)Linage beobachtet Datenflüsse in Echtzeit unterstützt Beobachtbarkeit.
Weitere Untertypen Design / Logik / Spaltenebene sorgen für Nuancen und Tiefe.

Indem Sie die für den Kontext Ihrer Organisation geeigneten Datenherkunftstypen auswählen, die Beteiligten aufeinander abstimmen, die richtigen Tools und Metadaten einsetzen und Governance-Maßnahmen verankern, können Sie das Vertrauen in Ihre Daten erheblich stärken. Zudem können Sie Ihre Audit-Fähigkeiten, die operative Widerstandsfähigkeit und Entscheidungsfindung verbessern.

Actian Data Intelligence-Plattform auf Knowledge-Graph-Technologie und lässt sich dank mehr als 100 Konnektoren nahtlos in bestehende Systeme integrieren. Möchten Sie erfahren, welchen Unterschied die Plattform für Ihr Unternehmen machen kann? Vereinbaren Sie Fähigkeiten einen Termin für eine individuelle Vorführung der Fähigkeiten der Plattform.

Über den Autor