Verschiedene Arten von Datenherkunft und ihre Funktionsweise verstehen
Zusammenfassung
- Erklärt, was Datenherkunft ist und warum es wichtig ist, ihre Arten zu verstehen.
- Unterteilt die wichtigsten Arten von Abstammungslinien: geschäftlich, technisch und operativ.
- Hebt hervor, wie jeder Abstammungstyp Governance, Vertrauen und Compliance unterstützt.
- Leitfaden zur Verwendung der einzelnen Abstammungsansätze basierend auf Datenreife und Risiko.
- Zeigt, wie Actian eine durchgängige, dynamische Datenherkunft in großem Maßstab unterstützt.
Im Datenmanagement ist die Implementierung von Data Lineage von entscheidender Bedeutung. Einfach ausgedrückt verfolgt Data Lineage die Migration Daten: woher sie stammen, wie sie fließen, wie sie transformiert werden und wie sie letztendlich verwendet werden.
In diesem Artikel untersuchen wir die verschiedenen Arten von Datenherkunft: Was sie sind, warum sie wichtig sind, wie sie sich voneinander unterscheiden und wann Unternehmen sie benötigen. Wir gehen auch darauf ein, wie Sie einen Ansatz wählen können, der auf die Datenreife und die Anforderungen Ihres Unternehmens abgestimmt ist.
Warum es wichtig ist, die Arten der Datenherkunft zu verstehen
Bevor wir uns näher mit den verschiedenen Typen befassen, ist es sinnvoll zu verstehen, warum es wichtig ist, zwischen den Typen zu unterscheiden. Hier sind die Gründe dafür:
- Zielgruppe und Zweck unterscheiden sich. Die Art von Herkunft, die für einen technischen Ingenieur nützlich ist, der sich mit Tabellen-zu-Tabellen-Transformationen befasst, unterscheidet sich von der Art von Herkunft, die für einen Business-Analysten nützlich ist, der sich damit befasst, wie ein KPI abgeleitet wurde.
- Die Granularität variiert. Einige Abstammungslinien sind grob, wie z. B. System → System, während andere feinkörnig sind, wie z. B. Spalte → Spalte, Zeile → Zeile. Wenn Sie wissen, welche Abstammungslinie Sie benötigen, können Sie Ihren Aufwand besser einschätzen.
- Governance, Compliance, Auditing und Vertrauen. Die richtige Art der Herkunft unterstützt die Einhaltung gesetzlicher Vorschriften wie der Datenschutz-Grundverordnung (DSGVO) und des Health Insurance Portability and Accountability Act (HIPAA) sowie Data Governance das allgemeine Vertrauen in Analysen.
- Auswirkungen auf Technologie und Tools. Unterschiedliche Arten von Lineage erfordern möglicherweise unterschiedliche Werkzeuge, wie z. B. Datenkataloge, Betriebsprotokolle und Graphdatenbanken. Die Wahl des richtigen Typs hilft Ihnen bei der Entscheidung, wie Sie Werkzeuge entwickeln oder kaufen.
4 Kernarten der Datenherkunft
Die Datenherkunft lässt sich in mehrere Haupttypen unterteilen. Die Terminologie überschneidet sich teilweise, aber die gängigsten Kategorien sind:
1. Herkunft der Geschäftsdaten
Dieser Typ, der auch als semantische Datenherkunft bezeichnet wird, konzentriert sich darauf, wie Daten in einem geschäftlichen Kontext verwendet werden, und nicht darauf, wie sie intern von technischen Teams genutzt werden.
Was diese Art von Abstammung erfasst
- Wie Geschäftsmetriken oder KPIs abgeleitet werden. Beispielsweise wird die „Kundenabwanderungsrate“ anhand bestimmter zugrunde liegender Tabellen definiert und berechnet.
- Welche Berichte, Dashboards oder Geschäftsprozesse verbrauchen die Daten?
- Wer ist Eigentümer oder verantwortlich für Daten auf Unternehmensebene?
- Hochrangige Datenflüsse, wie z. B. Quellsysteme → Data Warehouse → Deployment, jedoch nicht unbedingt alle technischen Details.
Wer nutzt diese Art von Abstammungslinie?
- Business-Analysten, Datenverwalter und Compliance-Teams.
- Für Audits und Governance, wenn Sie Geschäftsdefinitionen mit technischen Implementierungen in Einklang bringen müssen.
- Wenn Sie erklären müssen, warum eine Zahl in einem dashboard so dashboard , wie sie aussieht.
- Bei der Erfüllung von regulatorischen Anforderungen oder Anforderungen an die Datenverwaltung.
Diese Art der Datenherkunft hilft nicht-technischen Stakeholdern, die Herkunft der Daten zu verstehen und den Datenausgaben zu vertrauen. Sie gewährleistet die Übereinstimmung zwischen Geschäftsdefinitionen und den tatsächlichen Abläufen in technischen Systemen und unterstützt die Wirkungsanalyse. Wenn sich ein Geschäftsprozess ändert, können Sie sehen, welche Datenflüsse und Kennzahlen davon betroffen sein könnten.
2. Technische Daten Abstammung
Manchmal auch als physische Herkunft, horizontale Herkunft oder einfach als Pipeline-Ebene-Herkunft bezeichnet, befasst sich dieser Typ mit den Mechanismen, wie Daten bewegt, transformiert und gespeichert werden.
Was diese Art von Abstammung erfasst
- Datenübertragung zwischen Systemen: Extrahieren → Transformieren → Laden (ETL), Datenpipelines, Batch-Jobs und Streaming .
- Details wie Tabellen, Dateien, Spalten, Schemata, Transformationslogik, Zuordnungen und Abhängigkeiten.
- Die Infrastruktur und Systeme, die die Daten physisch übertragen.
Wer nutzt diese Art von Abstammungslinie?
- Dateningenieure, Datenarchitekten und Betriebsteams.
- Wenn Sie Pipelines debuggen, Abhängigkeiten verstehen und Migrationen oder Systemänderungen planen müssen.
- Wenn Sie Fragen beantworten müssen wie: „Wenn ich Tabelle A ändere, welche nachgelagerten Tabellen und Dashboards sind davon betroffen?“
Diese Art der Datenherkunft ermöglicht eine detaillierte Rückverfolgbarkeit und damit eine Ursachenanalyse von Problemen. Wenn beispielsweise ein dashboard falsche Zahlen dashboard , können Sie das Problem bis zu der Transformation zurückverfolgen, die den Fehler verursacht hat.
Die Abstammung hilft dabei, die Leistung zu überwachen, Pipelines zu optimieren und unerwartete Nebenwirkungen bei Systemänderungen zu vermeiden. Sie unterstützt auch das Änderungsmanagement, da Sie die Auswirkungen von Änderungen in vorgelagerten Systemen simulieren können.
Ein kurzes Beispiel
Beispielsweise zeigt die technische Herkunft, dass die Tabelle „orders_cleaned” durch Verknüpfen von „raw_orders” und „customer_info”, Anwenden eines Filters und einer Transformation sowie Speichern der Ergebnisse in einem Daten-Lakegespeichert und anschließend in die Star-Schema „fact_orders“ eingespeist.
Vorbehalte
- Es kann in seinen Details überwältigend sein – für manche Stakeholder zu viel.
- Die Erfassung und Pflege detaillierter Abstammungslinien ist ressourcenintensiv.
- Ohne Verknüpfung mit Geschäftsdefinitionen kann die technische Herkunft allein möglicherweise nicht den Anforderungen an Governance oder Geschäftstransparenz genügen.
3. Operative (oder Laufzeit-)Datenherkunft
Dies ist eine etwas neuere Klassifizierung, die das Verhalten von Daten zur Laufzeit erfasst. Der Schwerpunkt liegt auf der Beobachtung von Datenflüssen während ihrer Ausführung in Live- oder Near-Live-Systemen. Einige technische Anwender bezeichnen dies als operative Herkunft oder Echtzeit-Herkunft.
Was diese Art von Abstammung erfasst
- Ausführungsprotokolle von Pipelines: wann der Job ausgeführt wurde, wie lange er gedauert hat und wie viele Daten übertragen wurden.
- Anomalien, Fehler und Leistungskennzahlen im Zusammenhang mit Transformationen.
- Verfolgung von Datenbewegungen in Echtzeit oder nahezu Echtzeit, häufig für Streaming .
- Überwachung von Datenprozessen im Unterschied zu statischen Definitionen.
Wer nutzt diese Art von Abstammungslinie?
- Datenverarbeitungsteams, Site-Reliability-Engineers (SREs) und DevOps für Daten.
- Teams, die Datenpipelines hinsichtlich Leistung, Ausfällen, Latenz und Aktualität überwachen.
- Audit- oder Compliance-Teams, die wissen müssen, wann Daten zuletzt aktualisiert wurden oder wann sich eine Pipeline geändert hat.
Diese Art der Datenherkunft unterstützt Beobachtbarkeit. Sie wissen, wie die Herkunft aussehen sollte und wie sie tatsächlich ausgeführt wurde. Dies hilft auch bei der Reaktion auf Vorfälle. Wenn beispielsweise eine Pipeline ausfällt oder verzögert wird, zeigt die operative Herkunft, wo es zu einer Blockade gekommen ist. Schließlich trägt die operative Herkunft dazu bei, die Aktualität und Zuverlässigkeit von Datenbeständen zu gewährleisten, indem sie sicherstellt, dass die Datensätze auf dem neuesten Stand bleiben.
4. Weniger verbreitete Untertypen (Design, physisch, logisch, auf Spaltenebene)
Über die drei Hauptkategorien hinaus beschreiben viele Frameworks zusätzliche „Typen“ oder Untertypen der Datenherkunft. Es ist hilfreich, diese als Variationen oder Verfeinerungen der Kern-Typen zu verstehen.
Design- (oder logische) Abstammung
- Erfasst die beabsichtigten oder vorgesehenen Datenflüsse: wie Daten bewegt, transformiert und integriert werden sollen. Dies wird häufig während der Systemkonzeption oder -integration definiert.
- Weniger darüber, was tatsächlich passiert ist, sondern mehr darüber, was geplant war.
- Nützlich bei der Systemkonzeption, bei Migrationen oder bei der Dokumentation von Altsystemen.
Physische vs. logische Abstammung
- Physische Abstammung. Konzentriert sich auf tatsächliche Dateien, Tabellen, Speicher und Systeme, ähnlich wie bei der technischen Herkunft.
- Logische Abstammung. Höherstufige Abstraktionen, z. B. wie Daten abgeleitet werden, anstatt wie sie genau übertragen wurden.
Herkunft auf Spaltenebene (oder Feldebene)
- Es ist extrem feinmaschig und verfolgt, wie einzelne Spalten oder Felder und manchmal auch einzelne Zeilen durch Transformationen weitergegeben werden.
- Nützlich für risikoreiche Bereiche wie Finanzen und Gesundheitswesen, in denen Sie genau nachverfolgen müssen, wie ein Wert berechnet wurde.
End-to-End-Herkunft
- In vielen Frameworks kombiniert eine „End-to-End”-Linage-Ansicht geschäftliche, technische und betriebliche Sichtweisen und liefert so ein vollständiges Bild von den Quellsystemen bis hin zur Nutzung.
Vergleich der Datenherkunftstypen
Nachstehend finden Sie eine Vergleichstabelle, in der die wichtigsten Abstammungslinien anhand von Schlüsselkriterien zusammengefasst sind:
| Abstammungstyp | Fokus / Umfang | Typische Benutzer | Wichtigste Vorteile | Wichtigste Herausforderungen |
| Geschäftsfamilie | Hochrangige Abläufe, Geschäftsdefinitionen, Berichte, Dashboards | Business-Analysten, Datenverwalter, Compliance-Teams | Gleicht Geschäft und Daten ab, fördert Vertrauen und Governance | Es fehlen möglicherweise technische Details, Zusammenarbeit zwischen Wirtschaft und Technik erforderlich |
| Technische (physikalische) Abstammung | System-zu-System, Tabellen/Felder, ETL-Pipelines | Dateningenieure, Architekten | Detaillierte Rückverfolgbarkeit, unterstützt Wirkungsanalyse und Fehlerbehebung | Erfordert umfangreiche Metadaten , was überwältigend sein kann. |
| Operative Abstammungslinie | Echtzeit-/Nahe-Echtzeit-Ausführungsabläufe, Protokolle, Metriken | DevOps/SRE, Datenverarbeitungsteams | Verbessert Beobachtbarkeit, unterstützt die Überwachung und sorgt für Aktualität. | Infrastruktur-Overhead, möglicherweise Integration mit anderen Ansichten erforderlich |
| Design / Physisch / Logisch / Auf Spaltenebene | Variationsansichten: beabsichtigte Abläufe, Abstraktionsebene, Details auf Feldebene | Architekten, Data Governance | Unterstützt Migrationen, detaillierte Überwachung | Sehr detailliert und ressourcenintensiv; erfordert möglicherweise spezielle Werkzeuge |
Wann sollte welche Art von Datenherkunft verwendet werden?
Die Auswahl der richtigen Art der Datenherkunft hängt von der Reife, den Zielen und dem Risikoprofil Ihres Unternehmens ab. Hier sind einige Szenarien:
- Ihr Unternehmen beginnt gerade mit der Data Governance Programm. Beginnen Sie mit der Geschäftsherkunft. Ordnen Sie wichtige Geschäftskennzahlen Datenquellen und wichtigen Berichten zu und stellen Sie sicher, dass die Geschäftsanwender verstehen, was sie verwenden.
- Sie verfügen über eine komplexe Datenarchitektur, beispielsweise mit vielen Pipelines, Transformationen und Systemen. Technische Herkunft wird wichtig, damit Sie Abhängigkeiten nachverfolgen und vor Änderungen eine Auswirkungsanalyse durchführen können.
- Ihr Unternehmen benötigt Echtzeitdaten, verfügt über Streaming oder muss den Zustand der Pipelines überwachen. Fügen Sie operative Herkunftsinformationen hinzu, damit Sie Fehler, Latenzen oder Anomalien schnell erkennen können.
- Sie befinden sich in einem Bereich mit hohem Risiko, wie beispielsweise im Finanzwesen, im Gesundheitswesen oder in einer regulierten Branche. Erwägen Sie die Hinzufügung einer Herkunftsangabe auf Spaltenebene oder einer detaillierten Herkunftsangabe, um die Anforderungen von Audits/Behörden zu erfüllen.
- Sie migrieren Systeme, konsolidieren Data Warehouses oder implementieren eine neue Architektur. Das Design/die logische Herkunft ist nützlich, um den „beabsichtigten” Ablauf zu erfassen und mit dem tatsächlichen Ablauf zu vergleichen.
In vielen Fällen sollten mehrere Arten von Datenherkunft innerhalb einer Organisation nebeneinander bestehen. Für eine umfassende Lösung ist es oft sinnvoll, die geschäftliche, technische und operative Herkunft miteinander zu verknüpfen.
Überlegungen zur Umsetzung
Hier sind wichtige praktische Überlegungen bei der Umsetzung einer Data-Lineage-Initiative:
Metadaten und Tooling
- Um eine Abstammungslinie aufzubauen, benötigen Sie genaue Metadatenwie Datenquellen, Transformationslogik, Schemadetails, Jobprotokolle usw.
- Wählen Sie Tools, die zu der von Ihnen gewünschten Art der Herkunftsnachverfolgung passen. Dies können Datenkataloge für die geschäftliche Herkunftsnachverfolgung oder Pipeline-Überwachungssysteme für die operative Herkunftsnachverfolgung sein.
- Automatisieren Sie, wo immer möglich. Die manuelle Dokumentation der Herkunft ist fehleranfällig und schwer zu pflegen.
Granularität und Umfang
- Entscheiden Sie im Voraus, wie detailliert die Informationen sein sollen, z. B. auf System-, Tabellen-, Spalten- oder Zeilenebene. Eine zu grobe Ebene ist möglicherweise nicht aussagekräftig genug. Eine zu feine Ebene kann hingegen überwältigend sein.
- Priorisieren Sie hochwertige Datenbestände wie kritische Systeme und regulierte Daten, anstatt zu versuchen, vom ersten Tag an alle Bestände abzudecken.
Stakeholder
- Stellen Sie bei der Geschäftslinie sicher, dass sich die Geschäfts- und Technikteams auf Definitionen einigen. Vermeiden Sie semantische Abweichungen, bei denen die Bedeutungen von Geschäftsbegriffen von den Implementierungen abweichen.
- Für die technische und betriebliche Herkunft sollten Sie sicherstellen, dass Dateningenieure, Betriebsteams, Governance- und Stewardship-Teams zusammenarbeiten.
Visualisierung und Zugänglichkeit
- Datenherkunft ist nur dann nützlich, wenn sie sichtbar und nutzbar ist. Grafische Herkunftsdarstellungen wie Flussdiagramme und Abhängigkeitsgraphen erleichtern das Verständnis.
- Passen Sie die Ansicht an das Publikum an. Geschäftsanwender wünschen sich wahrscheinlich eine vereinfachte, allgemeine Ansicht, während Ingenieure einen detaillierten Drilldown in wichtige Probleme wünschen.
Wartung und Verwaltung
- Die Datenherkunft muss auf dem neuesten Stand gehalten werden, da sich Systeme, Pipelines und Geschäftslogik ändern. Ohne Pflege wird sie veraltet und irreführend.
- Legen Sie Governance-Prozesse für Datenbesitzer, Datenverwalter, Dokumentationsstandards und Change-Management-Workflows fest.
Actian Data Intelligence Platform unterstützt dynamische Datenherkunft
Die Datenherkunft ist eine grundlegende Fähigkeit für moderne data-driven . Aber nicht alle Datenherkünfte sind gleich. Es ist wichtig, die verschiedenen Arten der Datenherkunft zu verstehen:
- Geschäftliche (semantische) Herkunft verbindet Daten mit ihrem geschäftlichen Kontext und den Nutzern.
- Technische (physische) Abstammung verfolgt die Grundlagen von Bewegung und Transformation während des gesamten Lebenszyklus Datensatz.
- Operative (Laufzeit-)Linienführung beobachtet Datenflüsse in Echtzeit unterstützt Beobachtbarkeit.
- Zusätzliche Untertypen Design / Logisch / Spaltenebene sorgen für Nuancen und Tiefe.
Durch die Auswahl der richtigen Abstammungstypen für den Kontext Ihres Unternehmens, die Abstimmung mit den Stakeholdern, den Einsatz der richtigen Tools und Metadaten sowie die Einbettung von Governance können Sie das Vertrauen in Ihre Daten erheblich steigern. Außerdem können Sie Ihre Audit-Fähigkeiten, Ihre operative Widerstandsfähigkeit und Entscheidungsfindung verbessern.
Die Actian Data Intelligence Platform basiert auf Knowledge-Graph-Technologie und lässt sich dank mehr als 100 Konnektoren vollständig in bestehende Systeme integrieren. Möchten Sie erfahren, welchen Unterschied die Plattform für Ihr Unternehmen machen kann? Vereinbaren Sie Fähigkeiten einen Termin für eine individuelle Vorführung der Fähigkeiten der Plattform.