Datenpipelines bilden einen mehrstufigen Prozess, der Daten von Quellsystemen, einschließlich eines Daten-Lake, zu einer Zieldatenplattform bewegt und verfeinert. Die Schritte sind in einer Reihe angeordnet, wobei jeder Schritt parallelisiert werden kann, um die Datenbewegung durch die Datenpipeline zu beschleunigen. Datenpipelines automatisieren die Bewegung, Umwandlung und Bereinigung von Daten aus einer Datenquelle auf ihrer Migration zum Lager.
Warum Datenpipelines verwenden?
Datenpipelines bieten eine durchgängige Sichtbarkeit und Kontrolle über den Datenfluss. Dies bietet die Möglichkeit, wiederverwendbare Automatisierungselemente zu erstellen und die Datenprovenienz zu verbessern. Die Verwendung standardisierter Prozesse und Tools unterstützt auch die Bemühungen data governance .
Der Unterschied zwischen ETL-Pipelines und Datenpipelines
Eine Datenpipeline mit einem breiten Anwendungsbereich kann Extraktions-, Transformations- und Ladeschritte (ETL) enthalten. ETL-Prozesse enden ausnahmslos in einer Datenbank. Sie können in einer Zwischenveredelungsstufe enden, z. B. in einem Daten-Lake.
Vorteile der Verwendung von Datenpipelines
Nachfolgend sind einige der Vorteile der Verwendung von Datenpipelines aufgeführt:
- Unterstützt einen systematischen Ansatz, der automatisiert werden kann.
- Komponenten des Datenflusses können wiederverwendet werden, um die laufenden Entwicklungskosten zu senken.
- Datenquellen können zurückverfolgt werden, um die Datenherkunft zu unterstützen.
- Die durchgängige Sichtbarkeit eines Datenflusses hilft bei der Katalogisierung von Datenquellen und -verbrauchern.
- Automatisierte Beständigkeit. Manuelle und Ad-hoc-Workflows sind fehleranfälliger.
- Datenpipelines können für komplexe Anwendungsfälle verschachtelt werden.
- Sie verbessern die Datenqualität, während die Prozesse reifen.
- Die Entscheidungssicherheit steigt, wenn Daten aus robusten Pipelines verwendet werden.
Datenpipelines in der Actian Data Platform
Die Actian Data Platform kann Datenpipelines erstellen und planen und verfügt über Hunderte von vorgefertigten Konnektoren zu Quellen, darunter Marketo, Salesforce und ServiceNow. Die ActianDatenplattform verwendet eine vektorisierte, spaltenförmige Datenbank, die Alternativen um das 7,9-fache übertrifft. Die integrierte Datenintegrationstechnologie unterstützt Datenpipelines mit einem grafischen Designer, mit dem Sie Datenpipelines zum Verbinden, Profilieren, Transformieren und Laden von Daten entwerfen können. Pipelineschritte können geplant und parallel ausgeführt werden.
Erfahren Sie mehr über die Actian Data Platform unter: https://www.actian.com/data-platform
Datenpipeline
Die Datenpipeline besteht aus mehreren Schritten, die in der Regel die folgenden Funktionen umfassen:
Zugang
Für eine effektive Analyse müssen Unternehmen Daten aus multiple data in ihrem gesamten Unternehmen sammeln. Zu den Datenquellen gehören Transaktionssysteme, Protokolldateien, Vertriebs- und Marketingsysteme, Datensätze von Drittanbietern und vieles mehr. Sobald das Unternehmen entschieden hat, welche Fragen seine Analysen beantworten sollen, muss es die Quelldaten-Repositories identifizieren, die die Daten enthalten. Die Datenintegrationstechnologie bietet die Mechanismen zur Verbindung mit diesen verschiedenen Datenquellen.
Daten-Profilierung
Für jede Datenquelle muss ein Profil erstellt werden, um den besten Nutzen und die beste Zugriffsmethode für die Extraktion zu ermitteln. Unternehmen greifen auf Daten über APIs wie ODBC und Datenexporte in ein kommagetrenntes Format aus proprietären Repositories zu. Profiling-Tools helfen bei der Ermittlung von Datenvolumen, Kardinalität und dem besten Datenformat für jedes Datenfeld.
Dateneingang
Daten, die möglicherweise noch in mehreren Dateien vorhanden sind, müssen nun in ein gemeinsames Lager verschoben werden. Strukturierte und halbstrukturierte Dateien können unterschiedliche Formate haben, wie z.B. Aufzeichnung, dokumentbasiert und XML. Es ist wichtig, die Dokumentenformate so einheitlich wie möglich zu gestalten, um die Verarbeitung in Datenpipeline nicht zu komplex zu machen.
Datenbereinigung
In diesem Schritt werden Datenlücken und Inkonsistenzen beseitigt. Die Daten werden vor der Verarbeitung zunächst nach Zeitstempel sortiert. Durch Datenfilterung werden Datensätze entfernt, die für die Analyse nicht relevant sind. Lücken in den Daten können durch geeignete Standardwerte oder Berechnungen durch Extrapolation oder Interpolation benachbarter Datenwerte gefüllt werden. Ausreißer und Nullwerte können die Analyseergebnisse verfälschen. Solche Ausreißer müssen sorgfältig behandelt werden, um die Integrität der Datenanalyse zu gewährleisten.
Formatierung
Alle verbleibenden Datenabweichungen, wie z. B. Entscheidungen über Datumsformate, müssen für ein einfaches Laden in die Analyseplattform Lager standardisiert werden. Zu den häufigen Formatproblemen gehören die Formate der US-Bundesstaaten, deren Namen in einem System ausgeschrieben werden, während andere Systeme Abkürzungen verwenden. Datenintegrationstools bieten in der Regel Funktionen zum Ändern solcher Formate, oder es gibt einfache Python auf GitHub, die Dateningenieure verwenden können.
Kombinieren
Wenn Datensätze auf verschiedene Dateien aufgeteilt sind, müssen sie zusammengeführt und doppelte Werte abgeglichen werden.
Laden
Die Daten können geprüft und in die Zieldatenplattform geladen werden. Schnelle Lader können den Ladevorgang parallelisieren. Die Eingabedaten müssen das logische Datenmodell, einschließlich aller Einschränkungen der referentiellen Integrität, und den Entwurf des Datenbankschemas unterstützen.
Pipeline-Parallelität
Die Parallelisierung erfolgt innerhalb eines Pipelineschrittes, da ein vorheriger Schritt abgeschlossen sein muss, bevor ein neuer Schritt beginnen kann. Die Daten bewegen sich in der Pipeline Stufe für Stufe nach unten, bis sie ihr Ziel erreichen. Die langsamste Aufgabe begrenzt die Pipeline-Parallelität, da ihr Ergebnis mit der Ausgabe aller anderen Teilaufgaben zusammengeführt werden muss.