Die Datenumwandlung ist ein Schritt im Datenaufbereitungsprozess, der die Rohdaten für die Analyse zugänglicher macht. Es gibt viele Arten der Datenumwandlung, z. B. Filtern, Füllen von Lücken, Verbessern der Formatierung und Vereinheitlichen von Datentypen. Die Datenumwandlung ist ein wesentlicher Schritt in den Prozessen Extrahieren, Transformieren und Laden (ETL) oder Extrahieren, Laden und Transformieren (ELT).
Warum ist Datenumwandlung wichtig?
Ohne Datenumwandlung wären nur sehr wenige Datenbestände für die Analyse bereit. Bei der Extraktion von entscheidungsunterstützenden Daten aus mehreren Quellen müssen viele Inkonsistenzen zwischen den Datensätzen umgewandelt werden, um sie für die Gewinnung analytischer Erkenntnisse nutzbar zu machen.
Arten der Datenumwandlung
Die Datentransformationen lassen sich in die folgenden Typen einteilen:
Ästhetik
Ästhetische Transformationen formatieren Daten um, um die Lesbarkeit zu erleichtern oder um die Anforderungen der Programmierschnittstelle (API) kennenlernen .
Konstruktiv
Die konstruktive Umwandlung ergänzt die vorhandenen Daten.
Zerstörerisch
Destruktive Transformationen reduzieren Daten auf der Ebene der Aufzeichnung .
Strukturelle
Strukturtransformationen verändern Datensätze durch Zusammenführen, Verschieben oder Umbenennen von Feldern.
Schritte der Datenumwandlung
Daten können auf viele Arten transformiert werden. In jeder ETL-, ELT- oder Datenvorbereitungspipeline sind in der Regel mehrere Schritte zur Datenumwandlung erforderlich. Im Folgenden sind einige Beispiele aufgeführt.
Löschung von Daten
Rohdaten enthalten oft irrelevante Daten, die für den Vorgang, der den Datensatz erzeugt hat, gültig sind, aber für die Geschäftsanalyse nicht benötigt werden. Diese überflüssigen Felder oder Datensätze können herausgefiltert werden. Die meisten Datenintegrationswerkzeuge enthalten eine Auswahl an Funktionen zum Entfernen von Daten. Der daraus resultierende Datensatz ist kompakter und lässt sich leichter und kostengünstiger über Netzwerke übertragen und weiterverarbeiten.
Daten neu formatieren
Da die Daten in einem Analysesystem oft aus mehreren Quellen stammen, werden die Felder wahrscheinlich auf unterschiedliche Weise dargestellt. Währungsfelder können auf eine unterschiedliche Anzahl von Dezimalstellen gerundet werden und können normalerweise Währungssymbole enthalten. Durch eine Umformatierung können solche Felder vereinheitlicht werden, was nachgelagerte Analyseaufgaben vereinfacht. Datensätze können als kommagetrennte Felder, JSON-Strings oder in weiteren Eigenschaftsstrukturen vorliegen. Eine einheitliche Struktur, wie z. B. ein relationales Aufzeichnung , erleichtert die Analyse.
Daten zur Umstrukturierung
Durch Normalisierung oder Denormalisierung können Felder kombiniert oder aufgeteilt werden, um einen effizienteren Zugriff zu ermöglichen. Datenformate können geändert werden, um Vergleiche zu ermöglichen, und komprimiert werden, um den Speicherplatz besser zu nutzen.
Maskierung
Daten, die sensible finanzielle oder persönliche Informationen enthalten, müssen maskiert werden, um das Unternehmen vor Datenlecks zu schützen, die dem Ruf schaden.
Konstruktive Umwandlungen
Lückenfüller, Datenzusammenführung, vorberechnete Felder und Werteeinteilung sind Transformationen, die den Kontext der Datensätze bereichern.
Verwendung von Datenumwandlungstools
Unternehmen können benutzerdefinierte Skripte zur Umwandlung von Daten oder für diese Aufgabe entwickelte Tools verwenden. Der Nachteil von benutzerdefinierten Skripten ist, dass sie oft schwer zu warten sind, insbesondere wenn Entwickler das Unternehmen verlassen und ihre Arbeit nicht angemessen dokumentieren. Je größer das Volumen der benutzerdefinierten Skripte ist, desto länger dauert ihre Entwicklung, da die Entwickler zu sehr mit der Pflege ihrer früheren Skripte beschäftigt sind.
Die Verwendung gängiger Datenintegrationstools bietet aufgrund ihrer vorgefertigten Komponenten eine schnellere Wertschöpfung und erleichtert die Wartung, da sie sich auf Drittentwickler verlassen können. Eine Integrationslösung umfasst Funktionen wie Daten-Profiler und visuelle Tools für die Entwicklung und das Mapping von Daten. Lösungen wie DataConnect ermöglichen es Unternehmen, ihre Datenpipelines zentral verwalten und gleichzeitig Bus- oder Hub-and-Spoke-Datenarchitekturen zu ermöglichen.
Streaming und IoT
Streaming und IoT können ein hohes Volumen aufweisen, so dass die Daten am besten in der Nähe ihres Entstehungsortes umgewandelt werden, oft am Rande eines Netzwerks. Die Edge-Verarbeitung wird in der Regel in einem Gateway-Server durchgeführt, der sich in der Nähe des Erstellungsortes befindet. Gateway-Server werden eingesetzt, weil das IoT oft nur über sehr begrenzte Speicher- oder CPU verfügt.
Vorteile der Datenumwandlung
Nachfolgend sind einige der Vorteile der Datenumwandlung aufgeführt:
- Eine schnellere Reaktionszeit bei der Anfrage kann erreicht werden, indem die Daten ausreichend für ein Data Warehouse aufbereitet werden.
- Die Datenqualität wird durch die Optimierung der Daten für die vorgesehene Verwendung verbessert.
- Das Hinzufügen von Metadaten wie aussagekräftige Tabellennamen, Feldbezeichnungen und ein Datenkatalog erleichtern die Auffindbarkeit der Daten und schaffen Klarheit für die Benutzer.
- Durch die Automatisierung der Datenumwandlung kann ein größerer Teil der operativen Data Analytics werden.
- Mehr Entscheidungen können data driven werden, da Analysen mit vertrauenswürdigen Daten einfacher durchzuführen sind.
Datenumwandlung mit der Actian Data Platform
Die Actian Data Platform bietet einen einheitlichen Ort für die Erstellung und Pflege aller Analyseprojekte. Sie ist auf Benutzerfreundlichkeit ausgelegt und bietet integrierte Verbindungen zu Hunderten von Datenquellen. Die integrierte Datenintegration plant die Datentransformationsschritte innerhalb von Datenpipelines. Die Datenflüsse werden zentral verwaltet, um scalability zu gewährleisten. Die Vector Analysedatenbank verwendet ein Vertikale Speicherung Format und parallele Verarbeitung, um Alternativen zu übertreffen.
Durch die Unterstützung von On-Premise- und mehreren Cloud ist die Flexibilität der Deployment gewährleistet.