Datenmanagement

Daten Orchestrierung

Abstrakte Darstellung der Orchestrierung mit verschiedenen geometrischen Formen und Graphen, die integrierte Datenprozesse auf blauem Hintergrund symbolisieren.

Unter Orchestrierung versteht man den Prozess der Koordinierung und Verwaltung des Datenflusses, um eine nahtlose Interaktion und Integration zwischen verschiedenen Datenquellen und Systemen zu gewährleisten. Eine effektive Orchestrierung verbessert die Zugänglichkeit, Qualität und Beständigkeit der Daten im gesamten Datenökosystem.

Warum ist Orchestrierung wichtig?

In den Anfängen der IT haben Systemprogrammierer Dienstprogramme geschrieben, um Aufgaben zu automatisieren, die von den Bedienern im Maschinenraum oft manuell ausgeführt wurden. Dazu gehörten das Einsetzen von Magnetbandspulen, die Beantwortung von Aufforderungen der Bedienerkonsole und das Starten von Anwendungen. Im Laufe der Zeit ermöglichte es die Automatisierungssoftware den IT-Abteilungen, den Bedarf an manuellen Eingriffen zu eliminieren.

Betriebssysteme führen jetzt Startskripte aus, um IT-Umgebungen für die Aufnahme von Anwendungen vorzubereiten. Virtuelle Maschinen können Hardware emulieren, und Container haben virtuelle Maschinen über Cloud , Betriebssysteme und Hardware hinweg portabel gemacht. Orchestrierung kann mehrere Aufgaben aneinanderreihen und Aktivitäten planen, so dass sich Menschen nur noch um Ausfälle und Ausnahmen kümmern müssen. So können IT-Abteilungen mit dem rasanten Wachstum von Umfang und Komplexität der Anwendungen Schritt halten. Da sich die Anwendungen immer mehr zu komponentenbasierten Anwendungen entwickeln, wird ihre Zahl weiter zunehmen und die Notwendigkeit, ihre Infrastruktur verwalten , wird noch wichtiger werden.

Data Warehousing basiert auf unterschiedlichen Daten aus internen operativen Systemen und externen Feeds aus Web-Analysen und social media. Um das Data Warehouse mit sauberen Daten zu befüllen, ist ein mehrstufiger Prozess erforderlich. Orchestrierung helfen bei der Organisation und Planung der Datenpipeline , die den ETL-Prozess (Extraktion, Transformation und Laden) umfasst.

Orchestrierung Aufgaben für eine Data Warehousing Anwendung

Im Folgenden finden Sie eine Auswahl von Aufgaben, die in einem Data-Warehousing-Workflow orchestriert werden müssen. DataConnect ist eine Datenintegrationslösung, die Tools zur visuellen Erstellung eines Orchestrierung , wie im folgenden Beispiel, bietet.

Aufgaben der Datenprofilierung

Das Profiling von Quelldatensätzen umfasst das Scannen von Daten, um deren Größe, Variabilität, Struktur und Inhalt zu verstehen. Zu den Teilaufgaben gehören die Identifizierung doppelter Datensätze, die Gruppierung von Datenwerten in Bereiche und die Vorberechnung von Minimal-, Maximal-, Mittelwert-, Median-, Modus-, Standardabweichungs-, Summen- und Varianzstatistiken.

Schritt der Datenbereinigung

Die Erstellung von Datenprofilen wird dazu beitragen, Feldbegrenzer zu identifizieren, die der Datenbereinigung verwenden wird, um Datenfelder und Datensätze durch die Standardisierung von Datentypen und Dateiformaten zu vereinheitlichen.

Schritt der Filterung

Ausreißer und unnötige Daten können entfernt werden, um eine Verzerrung der Analyseergebnisse zu vermeiden.

Schritt der Datenumwandlung

Daten müssen oft umgewandelt werden, um verschiedene Probleme zu beheben. Dazu gehören inkonsistente Datumsfelder wie numerische Felder, die Währungssymbole und numerische Werte mit einer unterschiedlichen Anzahl von Dezimalstellen enthalten. Die Datentransformation kann diese Inkonsistenzen korrigieren. Führende oder nachfolgende Leerzeichen können vereinheitlicht werden. Sensible Daten können maskiert oder verschleiert werden, um die Privatsphäre der Kunden zu schützen.

Schritt der Datenerweiterung

Datensätze können durch das Hinzufügen von berechneten Werten und das Zusammenführen von Bezugsdaten aus mehreren Quellen angereichert werden. Lücken können auch durch Hinzufügen von Standardwerten, Extrapolation oder Interpolation von Feldwerten geschlossen werden. Daten aus internen Systemen können mit externen Daten Dritter kombiniert werden, um einen Marktkontext zu schaffen.

Aufteilung der Daten des Maschinelles Lernen

Wenn Datensätze zu groß sind, um von einem einzigen Prozess gelesen zu werden, können sie in Teilmengen partitioniert und auf verschiedenen Geräten abgelegt werden, um durch parallele Ausführung eine schnellere Aufnahme zu ermöglichen. Die Daten können mithilfe eines Schlüsselwertbereichs mit hoher Kardinalität oder Hash-Werten partitioniert werden, um eine zufällige, gleichmäßige Verteilung der Datensätze zu erreichen.

Schritt der Datenvalidierung

Die Datenvalidierung ist der letzte Schritt, bevor der Orchestrierung die Daten in das Data Warehouse hochlädt.

Schritt des Datenladens

Das Laden von Daten kann als einzelner Thread für kleinere Volumina und als parallele Threads für große Datenbankobjekte durchgeführt werden. Der parallele Ladeprozess ist selbst eine Orchestrierung , bei der ein Master-Prozess die Arbeit auf mehrere Prozesse oder Worker verteilt, die jeweils eine Teilmenge der Quelldaten laden.

Orchestrierung Aufgaben zur Deployment

Ziel der Deployment IT-Diensten oder -Anwendungen ist es, das Auftreten von Fehlern zu verringern. Die moderne Anwendungsentwicklung verwendet kontinuierliche Integrations- und Deployment (CD/CI), die sicherstellen, dass getestete Softwareversionen zuverlässig bereitgestellt werden. Bei agilen Entwicklungsmethoden werden häufig kleinere inkrementelle Versionen bereitgestellt.

Die Orchestrierung verwendet eine Reihe von Skripten zur Bereitstellung von Servern als virtuelle Hardware-Images in der Cloud oder vor Ort. Vorkonfigurierte Betriebssystem-Images werden von validierten Kopien auf den virtuellen Servern wiederhergestellt. Unterstützende Dienste wie Webanwendungsserver werden gestartet, bevor die Anwendung gestartet wird.

Entwickler haben die Möglichkeit, Containerdienste wie Google GKE zu nutzen, mit denen sie schnell laufende Dienste bereitstellen können, die mit allen benötigten IT-Ressourcen ausgestattet sind.

Die Vorteile der Orchestrierung

Einige der Vorteile der Orchestrierung sind:

  • Zuverlässigere IT- und Datenpipeline dank der Automatisierung.
  • Die ausnahmebasierte Verwaltung ermöglicht eine effiziente Nutzung der begrenzten IT-Ressourcen.
  • Erleichtert die Erstellung neuer Orchestrierung unter Verwendung vorhandener Komponenten.

Actian und Orchestrierung

Die Actian Data Platform erleichtert die Orchestrierung der Datenvorverarbeitung dank ihrer integrierten Datenintegrationsfunktionen. Unternehmen können den vollen Wert aus ihren verfügbaren Datenbeständen ziehen, da die ActianPlattform die Vereinheitlichung, Transformation und Orchestrierung von Datenpipelines erleichtert.

DataConnect bietet eine intelligente Low-Code-Integrationsplattform, um komplexe Anwendungsfälle mit automatisierten, intuitiven und wiederverwendbaren Integrationen zu lösen. DataConnect umfasst ein grafisches Studio für die visuelle Gestaltung von Datenpipelines, das Mapping von Datenfeldern und die Transformation von Daten. Datenaufbereitungspipelines können zentral verwaltet werden, was die Verwaltungskosten senkt.

Die Vector-Datenbank erleichtert die Hochgeschwindigkeitsdatenanalyse durch ihre Vertikale Speicherung , die den Bedarf an bereits vorhandenen Datenindizes minimiert.

Die Actian Data Platform läuft On-Premises und auf mehreren Cloud , einschließlich AWS, Azure und Google Cloud, so dass Sie Ihre Analysen überall dort durchführen können, wo sich Ihre Daten befinden.