Datenmanagement

Vorverarbeitung von Daten

Konzeptionelle Darstellung der digitalen Transformation in Unternehmen

Damit Daten von Analyse- und Maschinelles Lernen effektiv genutzt werden können, müssen sie vorverarbeitet werden. Die Vorverarbeitung von Daten erleichtert ihre Nutzung, indem Operationen wie das Entfernen von Ausreißern, Filtern, Transformieren und Normalisieren von Daten aus ihrer Ausgangsform angewendet werden.

Warum ist die Datenvorverarbeitung wichtig?

Unaufbereitete Quelldaten müssen für ihren Verwendungszweck optimiert werden, bevor sie zu verlässlichen Erkenntnissen beitragen können. Entscheidungen, die auf nicht aufbereiteten Daten beruhen, führen zu schlecht informierte Entscheidungen , die eher zu unbeabsichtigten Ergebnissen führen. Die Verwendung nicht repräsentativer Stichproben führt zu verzerrten Analyseergebnissen. Investitionen in hochmoderne Analysesoftware sind vergeudet, wenn sie mit Datenmüll gefüttert wird. Wie das Sprichwort sagt: "Garbage in, garbage out".

Schritte der Datenvorverarbeitung

Der allgemeine Ablauf der Datenvorverarbeitung lässt sich in den folgenden Schritten zusammenfassen:

  1. Daten-Profilierung
  2. Datenbereinigung
  3. Datenreduzierung
  4. Datenumwandlung
  5. Anreicherung der Daten
  6. Validierung von Daten

Vorverarbeitung von Daten

Die Datenvorverarbeitung findet in der Anfangsphase einer Datenpipeline. Die Vorverarbeitung zielt darauf ab, die genaue Beantwortung spezifischer Fragen mit Hilfe von Analyse- und Training Maschinelles Lernen ermöglichen. Im Folgenden werden einige Techniken zur Vorverarbeitung von Daten vorgestellt.

Profiling-Daten

Datenintegrationslösungen wie Actian DataConnect enthalten Funktionen zur Datenprofilierung, die eine Quelldatei scannen, um Datensätze, Duplikate und Kardinalität zu zählen. Actian DataConnect kann erweiterte Profiling-Operationen durchführen, einschließlich der Trennung unterschiedlicher Werte, der Einteilung von Datenwerten in Bereiche und der Durchführung von Fuzzy Matching für potenziell doppelte Werte. Darüber hinaus können Statistiken wie Min, Max, Mittelwert, Median, Modus, Standardabweichung, Summe und Varianz berechnet werden.

Daten bereinigen

Das Bereinigen von Daten erhöht die Beständigkeit der Daten, indem z.B. Datenformate verifiziert werden. Actian DataConnect bietet die Möglichkeit, Felddatenformate in einer Datendatei konsistent zu machen.

Datenreduzierung

Ausreißerwerte können entfernt werden, um zu vermeiden, dass die Analyse durch Ausreißerwerte übermäßig verzerrt oder verfälscht wird. Filtern ist eine weitere Form der Datenreduzierung, bei der unnötige Daten gelöscht werden. Rohdaten enthalten aus verschiedenen Gründen oft doppelte Datensätze. Doppelte Datensätze können gelöscht werden. Datensätze mit doppelten Schlüsselfeldern und Ersatzdaten können auf intelligente Weise abgeglichen und zusammengeführt werden.

Datenumwandlung

Die Datenfelder müssen einheitlich sein, um den Abgleich zu erleichtern. Datenformate können transformiert werden, um einen einheitlichen Datentyp und ein einheitliches Format zu erhalten.

Anreicherung der Daten

Datendateien können aus mehreren Quellen angereichert oder mit neuen berechneten Werten versehen werden. So kann es beispielsweise notwendig sein, nur bestimmte Feldwerte in Bereiche zu gruppieren. In diesem Fall kann der jeweilige Datenbereich die diskreten Werte ersetzen.

Füllen von Lücken

Lücken können gefüllt werden, indem man aus multiple data schöpft und Standardwerte zuweist. In vielen Fällen kann ein extrapolierter oder interpolierter Wert Lücken füllen.

Aufteilung

Wenn das Ergebnis eines analytischen Prozesses zeitkritisch ist, können Daten vorpartitioniert werden, um die Verarbeitungszeit zu beschleunigen. Die Partitionierung kann auf der Grundlage eines Schlüsselwerts und von Wertebereichen oder eines Hashs erfolgen, um eine gleichmäßige Verteilung auf die Partitionen zu erreichen. Die Partitionierung beschleunigt die Verarbeitungszeiten für große Datensätze erheblich, da die Parallelverarbeitung effizienter wird. Bereichsabfragen können ebenfalls beschleunigt werden, indem Partitionen mit Werten, die nicht den Bereichskriterien entsprechen, einfach übersprungen werden können.

Daten umwandeln

Datenintegrationstools wie Actian DataConnect können verwendet werden, um Datenformate zu ändern, um die Übereinstimmung zu verbessern, führende oder nachgestellte Leerzeichen zu entfernen und führende Nullen hinzuzufügen. Regulierte Daten können maskiert oder verschleiert werden, um die Privatsphäre der Kunden zu schützen.

Validierung von Daten

Die Daten können durch den Vergleich vorhandener Werte mit mehreren Quellen validiert werden.

Automatisierte Datenvorverarbeitung

Ein mit einer Datenintegrationslösung kombinierter Datenpipeline kann Datenvorverarbeitungsschritte orchestrieren. Vorprogrammierte Schritte können nach einem Zeitplan ausgeführt werden.

Die Vorteile der Datenvorverarbeitung

Zu den Vorteilen der Datenvorverarbeitung gehören:

  • Investitionen in automatisierte Datenvorverarbeitungspipelines machen ein Unternehmen flexibler und wettbewerbsfähiger, da es jederzeit bereit ist, die sich ändernden Kundenbedürfnisse und die Marktdynamik zu analysieren und sich daran anzupassen.
  • Vermeiden Sie Verzögerungen bei der Datenanalyse, indem Sie die Daten proaktiv vorverarbeiten lassen.
  • Verbesserte Datenqualität.
  • Die Automatisierung der Datenvorverarbeitung mit wiederverwendbaren Bausteinen macht Dateningenieure produktiver.

Actian und Datenvorverarbeitung

Die Actian Data Intelligence Platform wurde speziell dafür entwickelt, Unternehmen bei der Vereinheitlichung, verwalten und dem Verständnis ihrer Daten in hybriden Umgebungen zu unterstützen. Sie vereint Metadaten , Governance, Lineage, Qualitätsüberwachung und Automatisierung in einer einzigen Plattform. So können Teams sehen, woher die Daten kommen, wie sie verwendet werden und ob sie internen und externen Anforderungen entsprechen.

Durch seine zentrale Schnittstelle unterstützt Actian Erkenntnis über Datenstrukturen und -flüsse und erleichtert so die Anwendung von Richtlinien, die Lösung von Problemen und die abteilungsübergreifende Zusammenarbeit. Die Plattform hilft auch dabei, Daten mit dem geschäftlichen Kontext zu verbinden, damit Teams Daten effektiver und verantwortungsvoller nutzen können. Die Plattform von Actian ist so konzipiert, dass sie mit sich entwickelnden Datenökosystemen skaliert und eine konsistente, intelligente und sichere Datennutzung im gesamten Unternehmen unterstützt. Fordern Sie Ihr persönliches Demo an.