Datenmanagement

Datenumwandlung

Zwei freundliche Mitarbeiter diskutieren an einem modernen Bürotisch über Datenumwandlung.

Die Datenumwandlung ist ein Schritt im Datenaufbereitungsprozess, der die Rohdaten für die Analyse zugänglicher macht. Es gibt viele Arten der Datenumwandlung, z. B. Filtern, Füllen von Lücken, Verbessern der Formatierung und Vereinheitlichen von Datentypen. Die Datenumwandlung ist ein wesentlicher Schritt in den Prozessen Extrahieren, Transformieren und Laden (ETL) oder Extrahieren, Laden und Transformieren (ELT).

Warum ist Datenumwandlung wichtig?

Ohne Datenumwandlung wären nur sehr wenige Datenbestände für die Analyse bereit. Bei der Extraktion von entscheidungsunterstützenden Daten aus mehreren Quellen müssen viele Inkonsistenzen zwischen den Datensätzen umgewandelt werden, um sie für die Gewinnung analytischer Erkenntnisse nutzbar zu machen.

Arten der Datenumwandlung

Die Datentransformationen lassen sich in die folgenden Typen einteilen:

Ästhetik

Ästhetische Transformationen formatieren Daten um, um die Lesbarkeit zu erleichtern oder um die Anforderungen der Programmierschnittstelle (API) kennenlernen .

Konstruktiv

Die konstruktive Umwandlung ergänzt die vorhandenen Daten.

Zerstörerisch

Destruktive Transformationen reduzieren Daten auf der Ebene der Aufzeichnung .

Strukturelle

Strukturtransformationen verändern Datensätze durch Zusammenführen, Verschieben oder Umbenennen von Feldern.

Schritte der Datenumwandlung

Daten können auf viele Arten transformiert werden. In jeder ETL-, ELT- oder Datenvorbereitungspipeline sind in der Regel mehrere Schritte zur Datenumwandlung erforderlich. Im Folgenden sind einige Beispiele aufgeführt.

Löschung von Daten

Rohdaten enthalten oft irrelevante Daten, die für den Vorgang, der den Datensatz erzeugt hat, gültig sind, aber für die Geschäftsanalyse nicht benötigt werden. Diese überflüssigen Felder oder Datensätze können herausgefiltert werden. Die meisten Datenintegrationstools enthalten eine Auswahl an Fähigkeiten zum Entfernen von Daten. Der resultierende Datensatz ist kompakter und lässt sich leichter und kostengünstiger über Netzwerke übertragen und weiter bearbeiten.

Daten neu formatieren

Da die Daten in einem Analysesystem oft aus mehreren Quellen stammen, werden die Felder wahrscheinlich auf unterschiedliche Weise dargestellt. Währungsfelder können auf eine unterschiedliche Anzahl von Dezimalstellen gerundet werden und können normalerweise Währungssymbole enthalten. Durch eine Umformatierung können solche Felder vereinheitlicht werden, was nachgelagerte Analyseaufgaben vereinfacht. Datensätze können als kommagetrennte Felder, JSON-Strings oder in weiteren Eigenschaftsstrukturen vorliegen. Eine einheitliche Struktur, wie z. B. ein relationales Aufzeichnung , erleichtert die Analyse.

Daten zur Umstrukturierung

Durch Normalisierung oder Denormalisierung können Felder kombiniert oder aufgeteilt werden, um einen effizienteren Zugriff zu ermöglichen. Datenformate können geändert werden, um Vergleiche zu ermöglichen, und komprimiert werden, um den Speicherplatz besser zu nutzen.

Maskierung

Daten, die sensible finanzielle oder persönliche Informationen enthalten, müssen maskiert werden, um das Unternehmen vor Datenlecks zu schützen, die dem Ruf schaden.

Konstruktive Umwandlungen

Lückenfüller, Datenzusammenführung, vorberechnete Felder und Werteeinteilung sind Transformationen, die den Kontext der Datensätze bereichern.

Verwendung von Datenumwandlungstools

Unternehmen können benutzerdefinierte Skripte zur Umwandlung von Daten oder für diese Aufgabe entwickelte Tools verwenden. Der Nachteil von benutzerdefinierten Skripten ist, dass sie oft schwer zu warten sind, insbesondere wenn Entwickler das Unternehmen verlassen und ihre Arbeit nicht angemessen dokumentieren. Je größer das Volumen der benutzerdefinierten Skripte ist, desto länger dauert ihre Entwicklung, da die Entwickler zu sehr mit der Pflege ihrer früheren Skripte beschäftigt sind.

Die Verwendung gängiger Datenintegrationstools bietet aufgrund ihrer vorgefertigten Komponenten eine schnellere Wertschöpfung und erleichtert die Wartung, da sie sich auf Drittentwickler verlassen können. Eine Integrationslösung umfasst Funktionen wie Daten-Profiler und visuelle Tools für die Entwicklung und das Mapping von Daten. Lösungen wie DataConnect ermöglichen es Unternehmen, ihre Datenpipelines zentral verwalten und gleichzeitig Bus- oder Hub-and-Spoke-Datenarchitekturen zu ermöglichen.

Streaming und IoT

Streaming und IoT können ein hohes Volumen aufweisen, so dass die Daten am besten in der Nähe ihres Entstehungsortes umgewandelt werden, oft am Rande eines Netzwerks. Die Edge-Verarbeitung wird in der Regel in einem Gateway-Server durchgeführt, der sich in der Nähe des Erstellungsortes befindet. Gateway-Server werden eingesetzt, weil das IoT oft nur über sehr begrenzte Speicher- oder CPU verfügt.

Vorteile der Datenumwandlung

Nachfolgend sind einige der Vorteile der Datenumwandlung aufgeführt:

  • Eine schnellere Entscheidungsunterstützung abfragen Antwortzeit kann durch eine ausreichende Vorbereitung der Daten für ein Data Warehouse erreicht werden.
  • Die Datenqualität wird durch die Optimierung der Daten für die vorgesehene Verwendung verbessert.
  • Das Hinzufügen von Metadaten, wie z. B. aussagekräftige Tabellennamen, Feldbezeichnungen und ein Datenkatalog, erleichtert die Auffindbarkeit der Daten und schafft Klarheit für die Benutzer.
  • Durch die Automatisierung der Datenumwandlung kann ein größerer Teil der operativen Data Analytics werden.
  • Mehr Entscheidungen können data-driven werden, da Analysen mit vertrauenswürdigen Daten einfacher durchzuführen sind.

Actian und die Data Intelligence Plattform

Die Actian Data Intelligence Platform wurde speziell dafür entwickelt, Unternehmen bei der Vereinheitlichung, verwalten und dem Verständnis ihrer Daten in hybriden Umgebungen zu unterstützen. Sie vereint Metadaten , Governance, Lineage, Qualitätsüberwachung und Automatisierung in einer einzigen Plattform. So können Teams sehen, woher die Daten kommen, wie sie verwendet werden und ob sie internen und externen Anforderungen entsprechen.

Durch seine zentrale Schnittstelle unterstützt Actian Erkenntnis über Datenstrukturen und -flüsse und erleichtert so die Anwendung von Richtlinien, die Lösung von Problemen und die abteilungsübergreifende Zusammenarbeit. Die Plattform hilft auch dabei, Daten mit dem geschäftlichen Kontext zu verbinden, damit Teams Daten effektiver und verantwortungsvoller nutzen können. Die Plattform von Actian ist so konzipiert, dass sie mit sich entwickelnden Datenökosystemen skaliert und eine konsistente, intelligente und sichere Datennutzung im gesamten Unternehmen unterstützt. Fordern Sie Ihr persönliches Demo an.