Datenanalyse

Der Unternehmensleitfaden zur Datenherkunft

Eine robuste, vielschichtige Datenplattform

Unter „Datenherkunft“ versteht man die lückenlose Aufzeichnung Weges, den ein Datenelement von seiner ursprünglichen Quelle über alle Transformationen, Pipeline-Schritte und Systeme bis hin zu seinem endgültigen Ziel in einem Bericht, Modell oder einer operativen Anwendung zurücklegt.

Wenn die Datenherkunft nachverfolgt werden kann, kann ein Analyst, der in einem Quartalsbericht auf einen unerwarteten Wert stößt, diesen bis zu der genauen Transformation zurückverfolgen, aus der er hervorgegangen ist, sowie bis zur Quelltabelle, aus der er stammt, und bis zur Pipeline, über die er weitergeleitet wurde. Ein Entwickler, der eine Schemaänderung vorbereitet, kann vor der Umsetzung der Änderung alle nachgelagerten Komponenten einsehen, die davon betroffen sein werden. Ein Compliance-Beauftragter, der auf ein Audit reagiert, kann ohne manuelle Untersuchung einen vollständigen Datenpfad abrufen.

Dieser Leitfaden behandelt die folgenden Themen: Was ist Datenherkunft? Welche Arten von Datenherkunft gibt es? Wie funktioniert sie technisch? Wer nutzt sie? Wie lässt sie sich mit Data Governance und Compliance in Verbindung steht und wie sie implementiert wird.

Was ist Data Lineage?

Unter „Data Lineage“ versteht man die durchgängige Nachverfolgbarkeit von Daten auf ihrem Weg durch die Systeme eines Unternehmens: von der Quelle, an der sie erstellt oder erfasst wurden, über alle Transformations-, Verknüpfungs-, Aggregations- und Pipeline-Schritte hinweg bis hin zu den Berichten, Dashboards, Modellen und operativen Systemen, in denen sie genutzt werden.

Lineage beantwortet für jeden Datenbestand fünf Fragen:

Woher stammt diese Information? Das ursprüngliche Quellsystem, die Datenbank, die API oder der externe Feed, aus dem diese Daten stammen.
Was ist damit passiert? Alle angewendeten Transformationen: SQL-Verbindungen, Aggregationen, Filter, Berechnungen, Formatkonvertierungen.
Wohin geht es? Jedes nachgelagerte System, jeder Bericht, dashboard, jedes Modell oder jede Anwendung, die von dieser Ressource abhängt.
Wann fand der jeweilige Schritt statt? Die Zeitstempel aller Bewegungen und Umwandlungen in der Abstammungskette.
Wer hat darauf zugegriffen? Die Pipelines, Jobs und Benutzer, die in den einzelnen Schritten auf die Daten zugegriffen oder diese geändert haben.

Arten der Datenherkunft

Nicht alle Lineages dienen demselben Zweck. Organisationen benötigen je nach ihren Anforderungen an die Steuerung und Analyse unterschiedliche Arten.

Typ	Was es erfasst	Granularität	use caseanwendungsfall
Technische Abstammungslinie	Wie Daten durch technische Systeme fließen: Datenbanken, Pipelines, ETL-Jobs, APIs	Tabellen- und Spaltenebene	Auswirkungsanalyse, Ursachenanalyse, Dokumentation der Pipeline
Unternehmensgeschichte	Wie Daten mit Geschäftskonzepten und Kennzahlen verknüpft sind: Woher der „Umsatz“ stammt, wie der „aktive Kunde“ berechnet wird	Geschäftstermin-Ebene	Nutzer , Beständigkeit der Kennzahlen, teamübergreifende Abstimmung
Abstammung auf Spaltenebene	Welche konkreten Felder in welchen konkreten Tabellen wurden welchen Transformationen unterzogen, um die einzelnen Ausgabefelder zu erzeugen?	Einzelne Spalte	Regulatorische Rückverfolgbarkeit, Folgenabschätzung bei Schemaänderungen,Data Governance vonData Governance
Abstammungslinie auf Tabellenebene	Welche Tabellen liefern Daten für welche nachgelagerten Tabellen und Berichte?	Tabelle	Übergeordnete Abhängigkeitszuordnung, umfassende Wirkungsanalyse
Operative Abstammungslinie	Wie Daten in Echtzeit durch Betriebssysteme fließen: Ereignisströme, Microservices, APIs	Ereignis- und Nachrichtenebene	Systemfehlerbehebung in Echtzeit, operative Data Governance
AI/ML-Stammbaum	Welche Training , Feature-Pipelines und Transformationslogik haben die einzelnen Modellversionen hervorgebracht?	Datensatz Merkmalsebene	Reproduzierbarkeit von Modellen, Einhaltung gesetzlicher Vorschriften, KI-Governance

Herkunftsverfolgung auf Spaltenebene vs. Tabellenebene: Die Abstammungsbeziehung auf Tabellenebene zeigt, dass Tabelle A in Tabelle B einfließt. Die Abstammungsbeziehung auf Spaltenebene zeigt, dass die net_revenue Die Spalte in Tabelle B wird berechnet aus der gross_revenue Spalte in Tabelle A abzüglich der discount_amount Spalte in Tabelle A, gefiltert nach transaction_status = 'completed'. In regulierten Branchen und komplexen Analyseumgebungen ist eine Rückverfolgbarkeit auf Spaltenebene erforderlich – die Rückverfolgbarkeit auf Tabellenebene allein reicht nicht aus, um die Anforderungen an Wirkungsanalysen oder Audits zu erfüllen.

Die Datenherkunft ist zudem eines der wichtigsten Vertrauenssignale bei Daten-Discovery. Wenn Nutzer einen Datensatz einen Katalog oder eine Suchoberfläche finden, gibt die Datenherkunft Aufschluss darüber, ob die dahinterstehenden Daten tatsächlich das widerspiegeln, was sie angeblich widerspiegeln. Eine ausführliche Erläuterung dazu, wie die Datenherkunft mit der Discovery zusammenhängt, finden Sie imDaten-Discovery .

So funktioniert die Datenabfolge

Die moderne Datenherkunft wird automatisch erfasst, indem beobachtet wird, wie sich Daten durch die Systeme der Datenlandschaft bewegen. Der technische Prozess umfasst vier Phasen.

1. Metadaten

Lineage-Tools stellen eine Verbindung zu allen Quellen im Datenbestand her – Datenbanken, Data Warehouses, Data Lakes, ETL- und ELT-Plattformen, BI-Tools, Streaming und ML-Feature-Stores – und extrahieren die Metadaten , die den Datenfluss beschreiben:

Tabellen- und Spaltennamen, Schemata und Datentypen.
Abfrageprotokolle und Ausführungsaufzeichnungen aus Datenbanken und Data Warehouses.
Pipeline-Konfigurationen aus Orchestrierung wie Airflow und dbt.
API-Aufrufprotokolle von Integrationsplattformen.
Aufzeichnungen zur Auftragsausführung aus ETL-Plattformen.

Diese Metadaten das Ausgangsmaterial, anhand dessen Lineage-Systeme den Datenfluss rekonstruieren.

2. Transformationsanalyse

Damit die Datenherkunft aufzeigen kann, was bei jedem Schritt mit den Daten geschehen ist, muss das System die Transformationslogik analysieren. Bei SQL-basierten Transformationen analysieren Datenherkunftstools Abfragen, um Quelltabellen und -spalten, Verknüpfungsbeziehungen, Filter, Aggregationen und abgeleitete Spalten zu identifizieren. Bei Pipeline-basierten Transformationen analysieren sie Konfigurationsdateien und Ausführungsprotokolle, um dieselben Informationen zu extrahieren.

Das Ergebnis ist ein Diagramm aus Knoten (Datenbeständen) und Kanten (Transformationen), das die gesamte Herkunftskette von der Quelle bis zur Nutzung darstellt.

3. Erstellung und Speicherung von Diagrammen

Die extrahierten Metadaten die analysierte Transformationslogik werden zu einem Lineage-Graphen zusammengefügt, der imLager gespeichert wird. Jeder Knoten steht für ein Datenobjekt – eine Tabelle, eine Spalte, eine Datei, einen Datenstrom oder ein Modell. Jede Kante steht für eine Beziehung – eine Transformation, einen Pipeline-Lauf, eine Verknüpfung oder eine Kopie. Der Graph ist abfragbar: Ausgehend von einem beliebigen Datenobjekt kann das System stromaufwärts navigieren, um dessen Quellen zu ermitteln, oder stromabwärts, um alle davon abhängigen Elemente zu finden.

4. Laufende Aktualisierung

Statische Lineage-Diagramme, die einmal erstellt und nie aktualisiert werden, verlieren innerhalb weniger Tage an Genauigkeit, da sich Pipelines ändern und Daten weiterentwickeln. Moderne Lineage-Systeme werden kontinuierlich aktualisiert: Wenn eine Pipeline ausgeführt wird, wird der Lineage-Graph aktualisiert. Bei einer Schemaänderung werden die betroffenen Kanten im Graphen gekennzeichnet. Wenn eine neue Quelle angebunden wird, wird deren Lineage automatisch hinzugefügt. Aktives Lineage spiegelt den aktuellen Zustand der Datenlandschaft wider und ist kein Momentaufnahme zu einem bestimmten Zeitpunkt.

Wer nutzt Data Lineage und wie?

Dateningenieur: Nutzt Lineage zur Wirkungsanalyse, bevor Änderungen vorgenommen werden. Bevor das Schema einer Quelltabelle geändert wird, fragt der Ingenieur Lineage ab, um alle nachgelagerten Tabellen, Pipelines, Berichte und Modelle zu ermitteln, die von einer Spalte dieser Tabelle abhängen. Änderungen, die zu Störungen bei nachgelagerten Verbrauchern führen würden, werden vor ihrer Bereitstellung identifiziert und behoben, anstatt erst entdeckt zu werden, nachdem sie bereits Fehler verursacht haben.

Wenn eine Pipeline ausfällt oder ein Bericht unerwartete Werte anzeigt, verfolgt der Ingenieur die Datenherkunft von der betroffenen Ausgabe aus rückwärts, um den Transformationsschritt zu finden, in dem das Problem entstanden ist. Die Ermittlung der Grundursache, die früher stundenlange manuelle abfragen erforderte abfragen dauert abfragen wenige Minuten.

Datenanalyst: Nutzt die Datenherkunft, um den Daten in Berichten und Dashboards zu vertrauen. Wenn eine Kennzahl falsch erscheint, verfolgt der Analyst die Datenherkunft vom dashboard über die Transformationslogik bis hin zur Quelltabelle, um zu verstehen, wie der Wert zustande gekommen ist. Wenn die Datenherkunft einen sauberen, gut verwalteten Pfad von einer zertifizierten Quelle aufzeigt, vertraut der Analyst dem Wert, ohne das Datenteam einzuschalten.

Datenverantwortlicher:Nutztdie Datenherkunft, um die Auswirkungen von Datenqualitätsproblemen auf nachgelagerte Prozesse zu verstehen. Wenn bei einer Qualitätsprüfung eine Anomalie einem Datensatz festgestellt wird, verfolgt der Datenverantwortliche die Datenherkunft in nachgelagerte Prozesse, um alle Berichte, Modelle und operativen Systeme zu identifizieren, die möglicherweise betroffen sind. Anhand dieser Bestimmung des Umfangs lassen sich der Schweregrad des Vorfalls und der Umfang der erforderlichen Abhilfemaßnahmen ermitteln.

Compliance-Beauftragter: Nutzt die Datenherkunft, um regulatorische Fragen ohne manuelle Nachforschungen zu beantworten. Woher stammt diese Zahl in unserem Zulassungsantrag? In welchen Systemen sind die personenbezogenen Daten dieses Kunden gespeichert? Welche Verarbeitungsschritte Datensatz dieser Datensatz , bevor er zum trainieren Modells verwendet wurde? Die Datenherkunft beantwortet jede dieser Fragen anhand von Datensätzen, die automatisch gepflegt werden und nicht erst unter dem Druck einer Prüfung zusammengestellt werden müssen.

Data-Scientist:Nutztdie Herkunftsverfolgung (Lineage), um die Herkunft Training zu dokumentieren. Jeder Datensatz zum trainieren feinabstimmen Modells Datensatz , verfügt über eine Aufzeichnung seine Quelle, seine Transformationen, seine Qualitätszertifizierung und sein Zugriffsverlauf Aufzeichnung . Diese Aufzeichnung Training – anhand der Aufzeichnung lässt sich jeder Training exakt rekonstruieren – und für regulatorische Zwecke überprüfbar.

Chief Data Officer:Nutztdie Datenherkunft als Indikator für den Zustand der Governance. Die Abdeckung der Datenherkunft – also der Prozentsatz der Datenbestände mit vollständiger, automatisierter Datenherkunft – ist ein Frühindikator für den Reifegrad des Governance-Programms. Eine geringe Abdeckung in einem Bereich deutet darauf hin, dass die Pipelines in diesem Bereich nicht dokumentiert sind und keiner Governance unterliegen.

Datenherkunft und Data Governance

Die Datenherkunft ist das operative Rückgrat der Data Governance. Governance-Richtlinien erfordern, dass die Datenherkunft durchgesetzt und überprüft wird.

Anforderung an die Unternehmensführung	Wie die Abstammungslinie dies unterstützt
Compliance Protokolle	Lineage liefert den vollständigen Datenpfad, den die Aufsichtsbehörden verlangen: Herkunft, Verarbeitungshistorie, Zugriffsprotokolle und Verbrauch
Ursachenanalyse zur Datenqualität	Lineage führt Qualitätsmängel bis zu ihrem Ursprung zurück und ermöglicht so gezielte Abhilfemaßnahmen anstelle pauschaler Untersuchungen.
Folgenanalyse	„Lineage“ zeigt alle nachgelagerten Assets an, die von einer Änderung betroffen sind, bevor diese Änderung vorgenommen wird.
Datenzertifizierung	Zertifizierte Assets erfordern als Voraussetzung für die Zertifizierung eine dokumentierte Herkunft – Nutzer vertrauen zertifizierten Assets unter anderem deshalb, weil deren Herkunft nachvollziehbar ist
Zugriffssteuerung	Der Nachverfolgungsverlauf zeigt, wer in den einzelnen Phasen auf Daten zugegriffen hat, und unterstützt so die Überprüfung und das Audit der Zugriffsrechte
Data Governance von KI Training Data Governance	Lineage dokumentiert die Herkunft jedesDatensatz und erfüllt damit die Anforderungen an die Reproduzierbarkeit von Modellen sowie die regulatorischen Vorgaben.
Einhaltung des Rechts auf Löschung	Lineage ermittelt jedes System, in dem Daten zu einer bestimmten Person vorhanden sind, und ermöglicht so die vollständige Löschung dieser Daten in allen Systemen.

Informationen zur kontinuierlichen Überwachung des Zustands von Pipelines als Ergänzung zur Lineage finden Sie in unserem Leitfaden zur Beobachtbarkeit.

Datenherkunft in regulierten Branchen

Finanzdienstleistungen:Gemäß BCBS239 müssen Banken nachweisen, dass ihre Risikodaten korrekt sind und dass deren Herkunftsnachweis von der Quelle bis zur Einreichung bei den Aufsichtsbehörden nachvollziehbar und dokumentiert ist. Eine vierteljährlich erstellte manuelle Dokumentation des Herkunftsnachweises reicht nicht aus – die Aufsichtsbehörden erwarten, dass der Herkunftsnachweis kontinuierlich gepflegt wird und On Demand verfügbar ist. Die SOX-Konformität erfordert Protokolle Finanzberichtsdaten, deren automatisierter Herkunftsnachweis als Nebenprodukt der Pipeline-Abläufe erfasst wird.

Gesundheitswesen:Die HIPAAschreibt eine dokumentierte Nachverfolgbarkeit von PHI vor: woher die Daten stammen, wie sie weitergeleitet wurden, wer darauf zugegriffen hat und wofür sie verwendet wurden. Lineage liefert diese Dokumentation automatisch für jeden Datensatz Datenbestand. Wenn im Rahmen einer Untersuchung eines Datenschutzverstoßes alle Systeme identifiziert werden müssen, die mit einer bestimmten Aufzeichnung in Berührung gekommen sind, liefert Lineage die Antwort auf diese Frage innerhalb weniger Minuten.

Arzneimittel: Die Vorschriften der FDA gemäß 21 CFR Part 11 sowie die GxP-Vorschriften verlangen eine Dokumentation der Datenintegrität für klinische und Herstellungsdaten. Lineage verfolgt die Herkunft jedes Datensatz , der in behördlichen Einreichungen Datensatz , und belegt damit, dass Quelldaten nicht ohne Dokumentation verändert wurden und dass jede Transformation rückverfolgbar ist.

Versicherungen:VersicherungsmathematischeModelle, die in die Berechnung des aufsichtsrechtlichen Eigenkapitals einfließen, erfordern eine nachweisbare Herkunftsverfolgung von den Rohdaten über alle Umwandlungsschritte bis hin zur endgültigen Modellausgabe. Durch diese Herkunftsverfolgung werden diese Modelle überprüfbar und ihre Eingabedaten reproduzierbar.

Einzelhandel und E-Commerce:Die Verwendung von Kundendatenfür Personalisierungsmodelle, Preisalgorithmen und Betrugserkennung erfordert eine Nachverfolgbarkeit der Datenherkunft, um die Anforderungen der DSGVO und des CCPA zu erfüllen. Wenn ein Kunde einen Antrag auf Löschung stellt, ermittelt die Nachverfolgbarkeit der Datenherkunft jedes System im Datenbestand, das abgeleitete Daten aus den Datensätzen dieses Kunden enthält.

Datenherkunft und KI

Die KI-Governance führt zu neuen Anforderungen an die Rückverfolgbarkeit, für die herkömmliche Rückverfolgbarkeitstools nicht ausgelegt sind.

Herkunftsnachweis der Trainingsdaten:Für jeden Datensatz zum trainieren feinabstimmen Modells Datensatz , ist ein Aufzeichnung erforderlich: Quellsystem, Transformationsverlauf, Qualitätszertifizierung zum Zeitpunkt des Training, Überprüfung der Einstufung als personenbezogene Daten sowie die Identität des Verantwortlichen, der den Datensatz zertifiziert hat. Ohne diesen Aufzeichnung lässt sich Training reproduzieren, und Modellprüfungen können nicht durchgeführt werden.

Feature-Pipeline-Herkunft: Feature-Engineering-Pipelines wandeln Rohdaten in die Merkmale um, die von den Modellen verwendet werden. Die Herkunftsverfolgung auf Spaltenebene durch Feature-Pipelines zeigt genau, welche Quellfelder zu jedem Modellmerkmal beigetragen haben. Dies ermöglicht eine Auswirkungsanalyse bei Änderungen an den Quellschemata und liefert die Dokumentation, die für KI-Audits erforderlich ist.

Modellversionshistorie: Jede Modellversion ist das Ergebnis bestimmter Training , bestimmter Feature-Pipeline-Versionen und bestimmter Hyperparameter. Die Modellherkunft verfolgt all diese Elemente, sodass jede Modellversion exakt reproduziert und der Unterschied zwischen zwei Modellversionen genau nachvollzogen werden kann.

Ablauf der RAG-Pipeline: Retrieval-Augmented-Generation-Pipelines ziehen Dokumente und Datensätze abfragen in die Kontextfenster des LLM ein. Die Herkunftsverfolgung erfasst, welche Quelldokumente und Datensätze für den Abruf in Frage kommen, welche in bestimmten abfragen verwendet wurden und welche Zugriffskontrollen für jeden Abruf galten – das Protokoll KI-Governance-Programme und neue Vorschriften erfordern.

Datenverträge zwischen Feature-Stores und Training werden in Verbindung mit der Datenherkunft (Lineage) eingesetzt, um KI-Eingaben zu steuern. Lesen Sie dazu unserenLeitfaden zu Datenverträgen.

Bewährte Praktiken für die Implementierung von Data Lineage

Beginnen Sie mit den risikoreichsten Pipelines: Beginnen Sie mit der Implementierung der Datenherkunftsverfolgung bei den Pipelines, die Daten für die aufsichtsrechtliche Berichterstattung, geschäftskritische Dashboards und KI-Modelle in der Produktion liefern. Die vollständige Abdeckung der Datenherkunftsverfolgung über die gesamte Datenlandschaft hinweg erfordert Zeit. Wenn Sie dort ansetzen, wo am meisten auf dem Spiel steht, erzielen Sie sofort einen Mehrwert für die Governance.

Von Anfang an automatisieren: Die manuelle Dokumentation der Herkunftsdaten – die von Entwicklern in Wikis und Tabellenkalkulationen erstellt wird – wird innerhalb weniger Wochen ungenau, sobald sich die Pipelines ändern. Eine automatisierte Herkunftsdatenerfassung, die Metadaten zur Pipeline-Ausführung Metadaten aus Orchestrierung , Datenbanken und BI-Plattformen erfasst, bleibt auch ohne manuelle Pflege stets auf dem neuesten Stand.

Spaltenbezogene Herkunftsnachweise für regulierte Daten vorschreiben:Herkunftsnachweise auf Tabellenebenereichen für die Rückverfolgbarkeit im regulatorischen Bereich und für die Wirkungsanalyse in komplexen Umgebungen nicht aus. Spaltenbezogene Herkunftsnachweise sind als Voraussetzung für jede Pipeline festzulegen, die regulierte Daten verarbeitet, sowie für jede Pipeline, die geschäftskritische Berichte oder KI-Modelle speist.

Integration der Herkunftsdaten in den Datenkatalog: Wird die Herkunftsinformation in einem vom Metadaten getrennten Tool gespeichert, müssen Nutzer zwei Systeme konsultieren. Ist die Herkunftsinformation hingegen in den Datenkatalog , wird in einer einzigen Ansicht neben der Definition, dem Qualitätswert und den Eigentumsverhältnissen des Assets angezeigt, sodass sie nicht nur für Techniker, sondern auch für Analysten und Geschäftsanwender zugänglich ist.

Die Datenherkunft für Geschäftsanwender sichtbar machen: Technische Lineage-Diagramme, die SQL-Joins und Pipeline-Konfigurationen darstellen, sind zwar für Entwickler nützlich, nicht jedoch für Analysten und Datenverwalter. Geschäftsbezogene Lineage-Ansichten, die technische Abhängigkeiten in geschäftliche Beziehungen übersetzen, machen die Lineage für das gesamte Spektrum der Personen nutzbar, die auf Daten vertrauen und auf deren Grundlage handeln müssen.

Überwachen Sie die Abdeckung der Herkunftsnachweise als Governance-KPI:Erfassen Sieden Prozentsatz der Datenbestände mit automatisierter Herkunftsnachweisdokumentation als Kennzahl für Ihr Governance-Programm. Eine geringe Abdeckung in einem Bereich ist ein Frühindikator dafür, dass die Pipelines in diesem Bereich nicht dokumentiert sind und dass die Governance-Richtlinien für diese Datenbestände nicht durchgesetzt oder geprüft werden können.

FAQ

Die Datenherkunft verfolgt den Fluss und die Transformation von Daten über verschiedene Systeme hinweg. Data Governance die Richtlinien, Standards und Kontrollen für die Verwaltung und den Schutz von Daten. Innerhalb einer Datenintelligenzplattform operationalisiert die Herkunft die Verwaltung, indem sie Transparenz darüber schafft, wie verwaltete Daten tatsächlich in Analyse- und KI-Workflows verwendet werden.

Die Datenherkunft ist die lückenlose Aufzeichnung , woher ein Datenelement stammt, was auf seinem Weg damit geschehen ist und wo es schließlich gelandet ist. Sie beantwortet die Frage: Wenn ich diese Zahl in einem Bericht sehe, woher stammt sie genau und wie wurde sie berechnet?

Datenherkunft (Data Provenance) ist das übergeordnete Konzept der Dokumentation der Herkunft und Historie von Daten – woher sie stammen und wie sie erzeugt wurden. Datenherkunftsverfolgung (Data Lineage) ist die konkrete Umsetzung der Herkunftsverfolgung im Datenpipeline einer Datenpipeline : die durchgängige Darstellung, wie Daten durch Systeme fließen und dabei transformiert werden. Die Datenherkunftsverfolgung ist die operative Ausprägung der Datenherkunft für Unternehmensdatenumgebungen.

Die Herkunftsverfolgung auf Tabellenebene zeigt, welche Tabellen als Grundlage für nachgelagerte Tabellen und Berichte dienen. Die Herkunftsverfolgung auf Spaltenebene zeigt, welche spezifischen Felder in bestimmten Tabellen welche spezifischen Transformationen durchlaufen haben, um die einzelnen Ausgabefelder zu erzeugen. Die Herkunftsverfolgung auf Spaltenebene ist für die regulatorische Rückverfolgbarkeit, die Analyse schwerwiegender Auswirkungen undData Governance erforderlich. Die Herkunftsverfolgung auf Tabellenebene ist nützlich für die Abbildung von Abhängigkeiten auf hoher Ebene, reicht jedoch für komplexe Umgebungen nicht aus.

Ein Datenkatalog ein durchsuchbares Verzeichnis von Datenbeständen mit Metadaten: Definitionen, Eigentumsverhältnisse, Qualitätsbewertungen und Zugriffsinformationen. Die Datenherkunft ist ein Bestandteil eines Datenkatalog die Aufzeichnung , wie jeder Datenbestand erstellt wurde und was davon abhängt. Eine Datenherkunft ohne Katalog bietet keine Schnittstelle für Geschäftsanwender. Einem Katalog ohne Datenherkunft fehlen die Herkunftsinformationen, die Datenbestände vertrauenswürdig und überprüfbar machen.

Automatisierte Lineage-Tools lassen sich mit Orchestrierung wie Airflow und dbt, Datenbanken und Data Warehouses, BI-Tools sowie Datenintegrationsplattformen verbinden. Sie extrahieren Metadaten abfragen , Aufzeichnungen zur Pipeline-Ausführung, API-Aufrufhistorien und Konfigurationsdateien. Durch SQL-Parsing wird die Transformationslogik auf Spaltenebene aus den Abfragen extrahiert. Die extrahierten Metadaten zu einem Lineage-Graphen zusammengefügt, der während der Ausführung der Pipelines kontinuierlich aktualisiert wird.

Bei der Auswirkungsanalyse werden alle nachgelagerten Komponenten ermittelt, die von einer Änderung an einer Datenquelle oder einer Pipeline betroffen sind. Ausgehend von einem Lineage-Diagramm durchläuft die Auswirkungsanalyse alle Kanten stromabwärts vom vorgeschlagenen Änderungspunkt, um eine vollständige Liste der betroffenen Tabellen, Berichte, Dashboards und Modelle zu erstellen. Auf diese Weise können Entwickler das Risiko und den Umfang einer Änderung bereits vor deren Durchführung einschätzen, anstatt erst nach Deployment festzustellen, dass es zu Fehlern gekommen ist.

Die DSGVO verpflichtet Organisationen dazu, zu wissen, wo personenbezogene Daten vorliegen, wie sie weitergegeben werden und wie sie auf Anfrage gelöscht werden können. Lineage identifiziert jedes System im Datenbestand, das personenbezogene Daten oder daraus abgeleitete Daten enthält, verfolgt deren Weg von der Quelle durch alle Verarbeitungsschritte hindurch und dokumentiert jeden Zugriffsvorgang. Wenn ein Antrag auf Löschung eingeht, ermittelt Lineage alle Systeme, in denen eine Löschung erforderlich ist, und bestätigt nach der Löschung die Vollständigkeit des Vorgangs.

Die KI-Datenherkunft erweitert die herkömmliche Datenherkunft auf KI-Systeme: Welche Training wurden in die einzelnen Modelle eingespeist, welche Feature-Engineering-Pipelines haben Rohdaten in Modelleingaben umgewandelt, welche Hyperparameter und Bewertungskriterien haben zu den einzelnen Modellversionen geführt und welche Quelldokumente oder Datensätze wurden in den Antworten der RAG-Pipeline abgerufen? Die KI-Datenherkunft sorgt dafür, dass Training , Modellprüfungen durchführbar und KI-Governance-Programme vertretbar sind.

Lineage und Qualität sind sich ergänzende Fähigkeiten. Die Qualitätsüberwachung erkennt Anomalien in den Daten. Lineage ermittelt, woher diese Anomalien stammen. Wenn bei einer Qualitätsprüfung eine unerwartete Nullrate in einer Berichtstabelle festgestellt wird, verfolgt Lineage das Problem rückwärts bis zu der spezifischen Quelltabelle oder dem Transformationsschritt, der es verursacht hat, und ermöglicht so eine gezielte Behebung anstelle einer umfassenden Untersuchung.

Actian Data Intelligence-Plattform Neu

Kernfunktionen

AI-Analyst ( neu)

Entdecken Sie AI Analyst

Actian Data Observability Neu

Kernfunktionen

Jaspersoft Neu

Datenbanken

Produkte

Analytics-KI-Plattform

Kernfunktionen

Datenintegration

Produktübersicht

Alle Produkte

Der Unternehmensleitfaden zur Datenherkunft

Was ist Data Lineage?

Arten der Datenherkunft