Was ist eine Datenpipeline?
Eine Datenpipeline ist eine Reihe von Verarbeitungsschritten, die Daten von einem Quell- zu einem Zielsystem transportieren. Die Schritte der Datenpipeline sind sequentiell, da die Ausgabe eines Schrittes die Eingabe der nachfolgenden Schritte ist. Die Datenverarbeitung innerhalb jedes Schritts kann parallel erfolgen, um die Verarbeitungszeit zu verkürzen. Der erste Schritt der Datenpipeline ist in der Regel das Einlesen der Daten. Der letzte Schritt ist ein Einfügen oder Laden in eine Echtzeit-Datenanalysedatenbank.
Datenpipelines steuern den Datenfluss als klar definierter Prozess, der die Data Governance unterstützt. Außerdem schaffen sie Möglichkeiten zur Wiederverwendung beim Aufbau künftiger Pipelines. Wiederverwendbare Komponenten können im Laufe der Zeit verfeinert werden, was zu einer schnelleren Deployment und verbesserten Zuverlässigkeit führt. Datenpipelines ermöglichen es, den gesamten Datenfluss zu instrumentieren und zentral zu überwachen, um den Verwaltungsaufwand zu reduzieren. Die Automatisierung des Datenflusses verringert auch den Arbeitsaufwand.
Datenpipeline Beispiel
Die Schritte Datenpipeline variieren je nach Datentyp und verwendeten Tools. Eine repräsentative Abfolge von Schritten zur Identifizierung geeigneter Quellen und Datenpipeline ist unten aufgeführt:
- Datenidentifikation - Datenkataloge helfen dabei, potenzielle Datenquellen für die gewünschte Analyse zu identifizieren. In der Regel wird die Pipeline verwendet, um ein bestimmtes Data Warehouse zu befüllen, wie z.B. eine Kundendatenplattform , für die die Datenquellen gut bekannt sind. Datenkataloge enthalten auch Metadaten über die Qualität und Vertrauenswürdigkeit der Daten, die als Auswahlkriterien genutzt werden können.
- Profiling - Profiling hilft dabei, Datenformate zu verstehen und geeignete Skripte für Dateneingang zu erstellen. Rohdaten müssen manchmal in das Komma-getrennte Format exportiert werden, da ein direkter Zugriff schwierig ist.
- Dateneingang - Zu den Datenquellen können operative Systeme, Webklicks, Beiträge social media und Protokolldateien gehören. Die Datenintegrationstechnologie kann vordefinierte Konnektoren, Batch- und Streaming bereitstellen. Für halbstrukturierte Dateien sind möglicherweise spezielle Streaming-Formate für JSON- oder Aufzeichnung erforderlich. Die Aufnahme kann in Form von Stapeln oder Mikrostapeln erfolgen, da die Datensätze als Streams erstellt werden.
- Normalisierung - Duplikate können herausgefiltert und Lücken mit Standard- oder berechneten Werten gefüllt werden. Die Daten können in die Reihenfolge des Primärschlüssels sortiert werden, der später der natürliche Schlüssel für eine spaltenförmige Datenbanktabelle wird. Ausreißer und Nullwerte können in diesem Schritt behandelt werden.
- Formatierung - Die Daten müssen unter Verwendung eines einheitlichen Formats konsistent gemacht werden. Zu den Herausforderungen bei der Formatierung gehört, wie die US-Bundesstaaten geschrieben, buchstabiert oder als Buchstabenpaar dargestellt werden.
- Zusammenführung - Für die Erstellung einer einzigen Aufzeichnung können mehrere Dateien erforderlich sein. Etwaige Widersprüche müssen bei der Zusammenführung und dem Abgleich der Daten behoben werden.
- Laden - Das analytische Lager oder die Datenbank ist das übliche Ziel für diesen letzten Schritt Datenpipeline . Parallele Lader können verwendet werden, um Daten in mehreren Strömen zu laden. Die Eingabedatei muss vor einem parallelen Ladevorgang aufgeteilt werden, um zu vermeiden, dass die einzelne Datei einen Leistungsengpass darstellt. Dem Ladevorgang müssen ausreichend CPU zugewiesen werden, um den Durchsatz zu maximieren und die Gesamtdauer des Ladevorgangs zu verringern.
Grundlagen für eine robuste Datenpipeline
Nachstehend sind einige wünschenswerte Merkmale der Technologieplattform aufgeführt, die die Datenpipeline verwendet:
-
- Deployment vor Ort und in Cloud.
- Arbeitet mit CDC-Tools zur Synchronisierung mit den Datenquellen.
- Unterstützung mehrerer Cloud.
- Unterstützung für ältere Big Data wie Hadoop.
- Die Datenintegrationstechnologie umfasst Konnektoren zu gängigen Datenquellen.
- Überwachungswerkzeuge zur Anzeige und Ausführung von Datenpipeline .
- Parallele Verarbeitung in jedem Schritt der Pipeline.
- Datenprofilierungstechnologie zur schnelleren Erstellung von Big Data .
- ETL- und Fähigkeiten , so dass Daten innerhalb und außerhalb des Ziel-Datawarehouses manipuliert werden können.
- Funktionen zur Datentransformation.
- Generierung von Standardwerten.
- Ausnahmebehandlung für fehlgeschlagene Prozesse.
- Überprüfung der Datenintegrität zur Validierung der Vollständigkeit am Ende eines jeden Schritts.
- Grafische Werkzeuge zur Erstellung von Pipelines.
- Leichte Wartung.
- Verschlüsselung von Data-at-Rest und während des Fluges.
- Datenmaskierung zur Einhaltung der Vorschriften.
Vorteile der Verwendung von Datenpipelines
Die Verwendung einer Datenpipeline bietet unter anderem folgende Vorteile:
- Pipelines fördern die Wiederverwendung von Komponenten und die schrittweise Verfeinerung.
- Ermöglicht die Instrumentierung, Überwachung und Verwaltung des End-to-End-Prozesses. Fehlgeschlagene Schritte können dann gewarnt, gemildert und erneut versucht werden.
- Die Wiederverwendung beschleunigt die Pipeline-Entwicklung und die Testzeiten.
- Die Nutzung der Datenquellen kann überwacht werden, so dass ungenutzte Daten aus dem Verkehr gezogen werden können.
- Die Verwendung der Daten kann katalogisiert werden, ebenso wie die Verbraucher.
- Künftige Datenintegrationsprojekte können bestehende Pipelines auf Bus- oder Hub-basierte Verbindungen prüfen.
- Datenpipelines fördern die Datenqualität und Data Governance.
- Robuste Datenpipelines führen zu besser-informierteninformierte Entscheidungen.
Daten-Pipelines in Actian
Die Actian Data Intelligence Platform wurde speziell dafür entwickelt, Unternehmen bei der Vereinheitlichung, verwalten und dem Verständnis ihrer Daten in hybriden Umgebungen zu unterstützen. Sie vereint Metadaten , Governance, Lineage, Qualitätsüberwachung und Automatisierung in einer einzigen Plattform. So können Teams sehen, woher die Daten kommen, wie sie verwendet werden und ob sie internen und externen Anforderungen entsprechen.
Durch seine zentrale Schnittstelle unterstützt Actian Erkenntnis über Datenstrukturen und -flüsse und erleichtert so die Anwendung von Richtlinien, die Lösung von Problemen und die abteilungsübergreifende Zusammenarbeit. Die Plattform hilft auch dabei, Daten mit dem geschäftlichen Kontext zu verbinden, damit Teams Daten effektiver und verantwortungsvoller nutzen können. Die Plattform von Actian ist so konzipiert, dass sie mit sich entwickelnden Datenökosystemen skaliert und eine konsistente, intelligente und sichere Datennutzung im gesamten Unternehmen unterstützt. Fordern Sie Ihr persönliches Demo an.
Wichtigste Erkenntnisse

FAQ
Eine Datenpipeline ist eine strukturierte Reihe von Prozessen, die Daten von Quellsystemen zu Zielen wie Datenbanken, Data Warehouses, Data Lakes oder Analyseplattformen bewegen. Sie übernimmt die Extraktion, Transformation, Validierung und Bereitstellung.
Die meisten Datenpipelines umfassen Dateneingang, Konnektoren, Transformation (ETL/ELT), Orchestrierung, Datenqualitätsprüfungen, Speicherebenen und Ausgabe an Analyse- oder operative Systeme.
"ETL" ist ein Prozess, der das Extrahieren, Transformieren und Laden von Informationen umfasst. Der ETL-Prozess unterscheidet sich nicht von Datenpipelines, sondern ist einfach ein Weg, wie eine Datenpipeline Daten von der Quelle zu ihrem Ziel bringen kann.
Die Hauptphasen einer Datenpipeline sind Beschaffung, Verarbeitung und Laden. Dies bedeutet im Wesentlichen, dass die Informationsquelle gefunden, die Informationen so verarbeitet werden, dass sie mit der Art und Weise, wie Sie Ihre Daten speichern, übereinstimmen, und die Informationen an ihr Ziel übertragen werden.
Innovationen können Datenpipelines in eine Vielzahl neuer Richtungen lenken. Derzeit wird erwartet, dass die Zukunft eine stärkere Integration von künstlicher Intelligenz (KI), die Dezentralisierung von Daten
Daten, die Dezentralisierung der Datenspeicherung für leichteren Zugriff und schnelle Scalability sowie die Einführung von Serverless-Computing-Modellen.