Was ist Data Lineage?

Unter „Datenherkunft“ versteht man die lückenlose Aufzeichnung Weges, den ein Datenelement von seiner ursprünglichen Quelle über alle Transformationen, Pipeline-Schritte und Systeme bis hin zu seinem endgültigen Ziel in einem Bericht, Modell, dashboard oder einer operativen Anwendung zurücklegt.

Lineage beantwortet fünf Fragen zu jedem Datenbestand:

Woher stammt sie? Das Quellsystem, die Datenbank, die API oder der Feed, aus dem die Daten stammen.
Was ist damit passiert? Alle angewendeten Transformationen: SQL-Verbindungen, Aggregationen, Filter, Berechnungen, Formatkonvertierungen.
Wohin fließt das? In alle nachgelagerten Berichte, dashboard, Modelle und Systeme, die davon abhängen.
Wann fand der jeweilige Schritt statt? Zeitstempel für jede Bewegung und jede Veränderung in der Abstammungskette.
Wer hat darauf zugegriffen? Die Pipelines, Jobs und Benutzer, die in den einzelnen Schritten auf die Daten zugegriffen oder diese geändert haben.

Definition der Datenherkunft

Unter „Data Lineage“ versteht man die lückenlose Nachverfolgbarkeit von Daten auf ihrem gesamten Weg durch die Systeme eines Unternehmens. Sie bietet eine nachvollziehbare Aufzeichnung Herkunft, Aufzeichnung Transformationshistorie und Aufzeichnung Nutzung von Daten – und ermöglicht so, verwalten in großem Umfang zu vertrauen, zu prüfen und verwalten .

Eine Aufzeichnung kein statisches Diagramm, das einmal erstellt und dann vergessen wird. Moderne Lineage wird automatisch erfasst, indem die Ausführung von Pipelines beobachtet, SQL-Transformationen analysiert und Schemaänderungen überwacht werden. Sie wird kontinuierlich aktualisiert, während Daten bewegt werden und Pipelines ausgeführt werden, sodass die Aufzeichnung den aktuellen Zustand der Datenlandschaft Aufzeichnung und nicht nur eine Momentaufnahme von vor Monaten Aufzeichnung .

Arten der Datenherkunft

Typ	Was es erfasst	use caseanwendungsfall
Technische Abstammungslinie	Datenfluss über Pipelines, ETL-Jobs, SQL-Abfragen und Systeme	Fehlerbehebung, Auswirkungsanalyse, Dokumentation der Pipeline
Unternehmensgeschichte	Wie Datensätze mit Geschäftsbegriffen, KPIs und Berichten verknüpft werden	Vertrauen in die Analytik, Stakeholder , Beständigkeit der Kennzahlen
Abstammung auf Spaltenebene	Welche konkreten Felder wurden welchen Transformationen unterzogen, um die einzelnen Ausgabefelder zu erzeugen?	Nachverfolgbarkeit der Compliance, Nachverfolgung personenbezogener Daten, präzise Auswirkungsanalyse
Abstammung Datensatz	Beziehungen zwischen Tabellen und Datensätzen	Abbildung und Ermittlung von Abhängigkeiten auf hoher Ebene
Zeitliche Abstammungslinie	Historische Versionen und Schemaänderungen im Laufe der Zeit	Audit-Verlauf, Rollback-Analyse, Erkennung von Schema-Abweichungen
AI/ML-Stammbaum	Trainingsdatensätze, Merkmalspipelines und Versionshistorie der Modelle	Reproduzierbarkeit von Modellen, KI-Governance, Einhaltung gesetzlicher Vorschriften

Spaltenebene vs. Datensatz: Die Herkunftsverfolgung Datensatz zeigt, dass Tabelle A in Tabelle B einfließt. Die Herkunftsverfolgung auf Spaltenebene zeigt, dass die net_revenue Das Feld in Tabelle B wird berechnet aus gross_revenue minus discount_amount in Tabelle A, gefiltert nach transaction_status = 'completed'. In regulierten Umgebungen und bei komplexen Analysen ist eine Rückverfolgbarkeit auf Spaltenebene erforderlich – Datensatz allein reicht nicht aus, um Protokolle auf Feldebene Protokolle präzise Auswirkungsanalysen zu ermöglichen.

Wie die Datenherkunft erfasst wird

Die moderne Datenherkunft wird automatisch über drei Mechanismen erfasst:

Metadaten :Lineage-Toolsstellen eine Verbindung zu Datenquellen, Orchestrierung , BI-Tools und Data Warehouses her und extrahieren die Metadaten , die Datenbewegungen beschreiben: abfragen , Aufzeichnungen zur Pipeline-Ausführung, Schemadefinitionen und API-Aufrufverläufe. Diese Metadaten bilden das Ausgangsmaterial für die Rekonstruktion der Datenherkunft.

SQL- und Transformationsanalyse: Bei SQL-basierten Transformationen analysieren Lineage-Tools Abfragen, um Quelltabellen, Quellspalten, Verknüpfungsbeziehungen, Filter, Aggregationen und abgeleitete Spalten zu identifizieren. Auf diese Weise wird aus der Transformationslogik selbst eine Lineage auf Spaltenebene erstellt, ohne dass Ingenieure diese manuell dokumentieren müssen.

ereigniszentriert :Wenneine Pipeline ausgeführt wird, sich ein Schema ändert oder eine neue Quelle angebunden wird, wird der Lineage-Graph automatisch aktualisiert. Die aktive Lineage spiegelt den aktuellen Zustand der Datenlandschaft kontinuierlich wider und nicht nur im Rahmen einer planmäßigen Batch-Aktualisierung.

So sieht die Datenherkunft in der Praxis aus

Ein Analyst entdeckt eine unerwartete Zahl in einem dashboard. Mit Herkunftsangabe: Der Analyst öffnet das dashboard im Datenkatalog, verfolgt die Herkunft rückwärts bis zu der Transformation, die den Wert erzeugt hat, identifiziert die Quelltabelle, aus der er stammt, und stellt fest, dass die Quelltabelle aufgrund einer Verzögerung in der Pipeline sechs Stunden zu spät aktualisiert wurde. Gesamtdauer der Untersuchung: fünf Minuten. Ohne Herkunftsverfolgung: Der Analyst leitet das Problem an das Datenteam weiter, das den Wert manuell anhand von abfragen und Pipeline-Protokollen zurückverfolgt. Gesamtdauer der Untersuchung: zwei bis vier Stunden.

Ein Entwickler bereitet sich darauf vor, das Schema einer Quelltabelle zu ändern.MitLineage: Der Entwickler fragt den Lineage-Graphen ab, um alle nachgelagerten Tabellen, Pipelines, Berichte und Modelle zu ermitteln, die von einer Spalte der zu ändernden Tabelle abhängen. Drei nachgelagerte Berichte und eine ML-Feature-Pipeline würden dadurch nicht mehr funktionieren. Der Entwickler koordiniert die Behebung der Probleme, bevor die Änderung veröffentlicht wird. Ohne Lineage: Die Änderung wird veröffentlicht, drei Berichte funktionieren nicht mehr, und die ML-Pipeline liefert 48 Stunden lang fehlerhafte Features, bevor das Problem zurückverfolgt und behoben wird.

Ein Compliance-Beauftragter bearbeitet einen Antrag auf Löschung gemäß DSGVO. Mit Lineage: Der Beauftragte fragt für jedes nachgelagerte Asset, das aus der Aufzeichnung der betroffenen Person abgeleitet wurde, den Lineage-Graphen ab. Lineage liefert in weniger als einer Minute eine vollständige Liste über sechs Systeme hinweg. Alle sechs Systeme werden aktualisiert, und die Löschung wird bestätigt. Ohne Lineage: Der Beauftragte kontaktiert jeden Systemverantwortlichen manuell, um zu erfragen, ob dieser Daten der betroffenen Person speichert. Drei Wochen später ist die Untersuchung immer noch nicht abgeschlossen.

Datenherkunft im Vergleich zu verwandten Konzepten

Datenherkunft vs. Datenprovenienz: Datenherkunft ist das umfassendere Konzept der Dokumentation der Herkunft und Historie von Daten. Datenherkunftskette ist die spezifische operative Umsetzung der Datenherkunft im Kontext einer Pipeline: die durchgängige Darstellung, wie Daten durch Systeme fließen und transformiert werden. Die Datenherkunftskette ist die Datenherkunft, die abfragbar und automatisierbar gemacht wurde.

Datenherkunft vs. Datenkatalogisierung:Ein Datenkatalog ein durchsuchbares Verzeichnis von Datenbeständen mit Metadaten: Definitionen, Eigentumsverhältnisse, Qualitätsbewertungen und Zugriffsinformationen. Die Datenherkunft ist eine Komponente des Katalogs – die Aufzeichnung , wie jeder Datenbestand erstellt wurde und was davon abhängt. Eine Datenherkunft ohne Katalog bietet keine Benutzeroberfläche für Geschäftsanwender. Einem Katalog ohne Datenherkunft fehlen die Herkunftsinformationen, die Datenbestände vertrauenswürdig und überprüfbar machen.

Datenherkunft vs. Beobachtbarkeit: Beobachtbarkeit überwacht den Zustand der Daten in Echtzeit und erkennt dabei Anomalien, Schemaänderungen und Pipeline-Ausfälle. Die Datenherkunft liefert den Kontext für diese Beobachtungen: Wenn eine Beobachtbarkeit aufgrund einer Anomalie ausgelöst wird, ermittelt die Datenherkunft, woher die Anomalie und welche nachgelagerten Ressourcen davon betroffen sind. Die beiden Fähigkeiten – Beobachtbarkeit das Problem, die Datenherkunft erklärt es.

FAQ

Unter „Data Lineage“ versteht man die Aufzeichnung , woher eine Datenangabe stammt, was auf ihrem Weg damit geschehen ist und wo sie letztendlich gelandet ist. Wenn Sie sich eine Zahl in einem Bericht ansehen und wissen möchten, wie sie berechnet wurde und woher die zugrunde liegenden Daten stammen, liefert „Data Lineage“ die Antwort auf diese Frage.

Der wöchentliche Umsatzbericht eines Einzelhandelsunternehmens weist einen unerwarteten Rückgang auf. Ein Datenanalyst öffnet das Umsatzfeld im Datenkatalog verfolgt dessen Datenherkunft rückwärts. Die Datenherkunft zeigt, dass das Feld aus einer Transaktionstabelle berechnet wird, die mit einer Produktpreistabelle verknüpft ist. Die Preistabelle wurde vor zwei Tagen aktualisiert, wobei eine neue Rabattkategorie hinzugefügt wurde, für deren Verarbeitung die Umsatzberechnung nicht ausgelegt war. Dank der Datenherkunft konnte die Ursache der Abweichung innerhalb von Minuten statt Stunden ermittelt werden.

Die Herkunftsverfolgung auf Spaltenebene erfasst, welche spezifischen Felder in den Quelltabellen welche spezifischen Transformationen durchlaufen haben, um die einzelnen Felder in den nachgelagerten Tabellen zu erzeugen. Es handelt sich dabei um eine detailliertere und ressourcenintensivere Form der Herkunftsverfolgung als die Verfolgung Datensatz, die jedoch für die regulatorische Rückverfolgbarkeit, präzise Auswirkungsanalysen, die Nachverfolgung personenbezogener Daten (PII) undData Governance erforderlich ist.

Data Governance ist das Framework Richtlinien, Rollen und Standards, das festlegt, wie Daten verwaltet werden. Die Datenherkunft ist eine der operativen Fähigkeiten die Governance erst möglich machen: Sie liefert die Protokolle für die Compliance erforderlich sind, die Auswirkungsanalyse, auf die sich das Änderungsmanagement stützt, und die Herkunftsnachweise, die für die Datenzertifizierung benötigt werden. Die Datenherkunft ist ein Bestandteil der Governance, kein Ersatz dafür.

Automatisierte Lineage-Tools lassen sich mit Orchestrierung wie Airflow und dbt, Datenbanken und Data Warehouses, BI-Tools sowie Datenintegrationsplattformen verbinden. Sie extrahieren Metadaten abfragen , Aufzeichnungen zur Pipeline-Ausführung und Schemadefinitionen. Durch SQL-Parsing wird die Transformationslogik auf Spaltenebene aus den Abfragen extrahiert. Die extrahierten Metadaten zu einem Lineage-Diagramm Metadaten , das während der Ausführung der Pipelines kontinuierlich aktualisiert wird.

KI-Modelle erfordern nachvollziehbare und geregelte Training . Die Datenherkunft dokumentiert, welche Datensätze zum trainieren Modelle verwendet wurden, welche Transformationen zur Erstellung der Training angewendet wurden und welche Qualitätsstandards die Daten zum Zeitpunkt des Training erfüllten. Ohne diese Herkunftsangaben lässt sich Training reproduzieren und Modellprüfungen können nicht durchgeführt werden. Mit der Weiterentwicklung der Vorschriften zur KI-Governance wird die Herkunftsangabe Training zunehmend zu einer Compliance-Anforderung und ist nicht mehr nur eine bewährte Vorgehensweise.

Bei der Auswirkungsanalyse werden alle nachgelagerten Komponenten ermittelt, die von einer geplanten Änderung an einer Datenquelle oder -pipeline betroffen sind. Ausgehend von einem Lineage-Diagramm durchläuft die Auswirkungsanalyse jede nachgelagerte Kante vom Änderungspunkt aus, um eine vollständige Liste der betroffenen Tabellen, Berichte, Dashboards und Modelle zu erstellen. Auf diese Weise können Entwickler Risiken bereits vor der Umsetzung einer Änderung bewerten, anstatt erst im Produktivbetrieb Fehler zu entdecken.

Actian Data Intelligence-Plattform Neu

Kernfunktionen

AI-Analyst ( neu)

Entdecken Sie AI Analyst

Actian Data Observability Neu

Kernfunktionen

Jaspersoft Neu

Datenbanken

Produkte

Analytics-KI-Plattform

Kernfunktionen

Datenintegration

Produktübersicht

Alle Produkte

Was ist Data Lineage?

Definition der Datenherkunft

Arten der Datenherkunft

Wie die Datenherkunft erfasst wird

So sieht die Datenherkunft in der Praxis aus

Datenherkunft im Vergleich zu verwandten Konzepten

FAQ

Was ist Data Lineage?

Definition der Datenherkunft

Arten der Datenherkunft

Wie die Datenherkunft erfasst wird

So sieht die Datenherkunft in der Praxis aus

Datenherkunft im Vergleich zu verwandten Konzepten

FAQ

Was versteht man unter „Data Lineage“ in einfachen Worten?

Was ist ein Beispiel für Datenherkunft?

Was versteht man unter Datenherkunft auf Spaltenebene?

Was ist der Unterschied zwischen Datenherkunft und Data Governance?

Wie wird die Datenherkunft automatisch erfasst?

Warum ist die Datenherkunft für KI von Bedeutung?

Was versteht man unter einer Auswirkungsanalyse im Zusammenhang mit der Datenherkunft?

Mehr erfahren

So nutzen Sie KI-Analysen für Supply Chain

Warum sind semantische Wissensgraphen für KI-Datenanalysten wichtig?

Was ist „Agentic Search“?