Warum ist Datenbereinigung wichtig?
Dank der Digitalisierung von Geschäftsprozessen steht eine Fülle von Daten zur Verfügung, die analysiert werden können. Die Wertschöpfung aus diesen Daten hängt wesentlich von der Qualität und Integrität der Daten ab, die für die Analyse und Entscheidungsfindung verwendet werden. Wenn Entscheidungen auf der Grundlage minderwertiger und/oder ungenauer Daten getroffen werden, erhöht sich die Wahrscheinlichkeit, dass aufgrund von Fehlinformationen schlechte Ergebnisse erzielt werden. Zuverlässige Entscheidungen müssen auf qualitativ hochwertigen Daten beruhen.
Wo die Datenbereinigung passt
Die Datenbereinigung ist Teil eines umfassenderen Datenaufbereitungsprozesses, der in der Regel die folgende Abfolge von Schritten umfasst, bevor ein Unternehmen Daten analysieren kann:
- Zugangsdaten.
- Einlesen (oder Abrufen) von Daten.
- Daten bereinigen.
- Daten formatieren.
- Kombinieren Sie Datensätze.
Datenbereinigung beschreibt die Werkzeuge und Techniken, die verwendet werden, um grobe oder schmutzige Daten zu bereinigen, indem Lücken gefüllt, irrelevante Daten herausgefiltert, dedupliziert und formatiert werden, um sie genau und von höherer Qualität zu machen.
Datenbereinigung
Es gibt viele Möglichkeiten, wie Daten für die Analyse ungeeignet werden können. Im Folgenden finden Sie eine Auswahl von Techniken, die zur Verfeinerung von Rohdaten oder zur Verbesserung der Datenqualität eingesetzt werden:
Deduplizierung und Datenbereinigung
Das Entfernen von Kopien doppelter Datensätze ist wichtig, um Doppelzählungen zu vermeiden. Beim Zusammenführen mehrerer Datensätze können leicht doppelte Datensätze entstehen. In einer relationalen Datenbank ist die Verwendung des UNIQUE-Qualifizierers zum Ignorieren von Duplikaten einfach, aber es ist dennoch sinnvoll, Deduplizierung durchzuführen, um Platz und CPU zu sparen. ETL-Tools (Extrahieren, Übertragen und Laden) vergleichen Zeichenketten bei der Verarbeitung außerhalb einer Datenbank. Bei der Deduplizierung innerhalb einer Datenbank mit einer ELT-Methode (Extrahieren, Laden und Transformieren) ist es in SQL einfacher, SELECT UNIQUE und INSERT in eine Zieltabelle zu verwenden.
Verbesserung der Beständigkeit durch Datenbereinigung
Die meisten Dateneingabevalidierungen prüfen die zulässigen Werte, aber verschiedene Systeme haben oft ihre eigenen Regeln dafür, was sie als gültig ansehen. Wenn beispielsweise ein System die US-Bundesstaaten als zwei Zeichen aufzeichnet und ein anderes ein Drop-Down-Menü mit ausgeschriebenen Staatsnamen verwendet, ist es eine gute Idee, sich auf ein Format zu einigen und die Datensätze zu aktualisieren, um das Format konsistent zu halten. Die Verwendung derselben Groß- und Kleinschreibung und desselben Datentyps verbessert auch die Beständigkeit.
Füllen von Lücken
Wenn ein Feld optional ist, kann es zu einer Datendatei mit Nullwerten führen. Wenn es einen vernünftigen Standardwert gibt, kann dieser eingefügt werden, um die Nullen zu entfernen. In einer Datenreihe kann ein extrapolierter oder interpolierter Wert zur Glättung der Daten beitragen.
Filtern
Datensätze und Felder, die für die nachgelagerte Analyse nicht nützlich sind, können herausgefiltert werden, um die Relevanz und die Datenqualität zu erhöhen. Ausreißer müssen oft entfernt werden, damit sie die Analyseergebnisse nicht verfälschen.
Umwandlung
Felder wie Datumsformate sind in Quelldatensätzen oft inkonsistent. Mit Datenintegrationstools wie DataConnect können Sie Regeln zur Automatisierung von Feldumwandlungen festlegen. Private Daten müssen möglicherweise maskiert oder verschleiert werden, um die Compliance zu wahren.
In der Fertigung werden Sensordaten zur Qualitätssicherung verwendet, um festzustellen, wie weit die Produktion gesteigert werden kann, bevor die Qualität leidet. In der chinesischen Tesla-Fabrik wird heute alle 40 Sekunden ein neues Auto produziert.
Kreuzvalidierung
Datenintegrität führt zu Vertrauen in die Daten. Eine Möglichkeit zur Bewertung der Datengültigkeit ist der Vergleich mit anderen Systemen der Aufzeichnung , die den gleichen Wert haben sollten. Datensätze, die identisch sind, werden als gültig angesehen; Ausnahmen werden gekennzeichnet und separat für die Datenbereinigung gespeichert. Datenkataloge können Aufzeichnung , dass die Daten gültig sind und ihre Qualität entsprechend bewerten.
Wer führt die Datenbereinigung durch?
Die Stelle, die sich üblicherweise mit Datenbereinigung befasst, ist die eines Dateningenieurs, der für Datenpipelines und ETL-Verarbeitung zuständig ist. Der Chief Data Officer (CDO) stellt die allgemeine Datenqualität und -verfügbarkeit für die Verbraucher sicher. Analyseanwender und Datenwissenschaftler sind Abnehmer der bereinigten Daten. Dateningenieure sollten die Änderungen an den Quellsystemen spezifizieren, um bereinigte Daten bereitzustellen.
Ursachen für unsaubere Daten
Im Folgenden sind einige Szenarien aufgeführt, die zu unsauberen Daten führen:
- Die meisten Anwendungen arbeiten in einem Silo, da sie entwickelt wurden, um einen bestimmten use case kennenlernen , der von einem Produktmanager, Geschäftsanalysten, Softwareentwickler oder anderen Benutzern definiert wurde.
- Ein schlechtes Design der Nutzer (UI) kann dazu führen, dass optionale Felder in der Regel leer gelassen werden, und das Fehlen von Optionsfeldern oder Dropdown-Werten bedeutet in der Regel, dass die Felder durch schlechte Eingabe mit Müll gefüllt werden.
- Schlechtes Datendesign, z. B. das Zulassen mehrerer Datensätze mit demselben Primärschlüsselwert, führt in der Regel zu Problemen.
- Das Fehlen von referentiellen Integritätsbeschränkungen kann ein Schema durch die Verwendung von Eins-zu-Viel-Beziehungen, die Eins-zu-Eins-Beziehungen sein sollten, beschädigen.
- Software-Wartung und geschäftliche Entwicklung führen oft zu Fehlern, die die Datenintegrität beeinträchtigen.
- Mangelnde Validierung bei der Datenintegrationsverarbeitung kann dazu führen, dass fehlerhafte Daten in ein nachgelagertes System eindringen. So kann beispielsweise ein schlecht eingerichtetes Marketing-Automatisierungssystem doppelte Leads in ein Vertriebssystem einspeisen, das für eine einzige Aufzeichnung mit einer eindeutigen E-Mail-Adresse als Primärschlüssel konzipiert ist.
Automatisierung der Datenqualität
Datenintegrationslösungen wie DataConnect ermöglichen es Dateningenieuren, Datenpipelines einzurichten, die eine Datenqualitätsverarbeitung anhand von Regeln durchführen. Felder können mit Standardwerten gefüllt werden, Wertebereiche können überprüft werden, Datentypen können geändert werden, und Transformationsfunktionen können anspruchsvollere Aktualisierungen durchführen.
Actian hilft bei der Datenqualität
Die Actian Data Platform umfasst eine skalierbar hybride Integrationslösung, die hochwertige Daten für die Vereinheitlichung, Umwandlung und Orchestrierung von Datenpipelines liefert. DataConnect ist eine intelligente, Low-Code-Integrationsplattform, die komplexe Anwendungsfälle mit automatisierten, intuitiven und wiederverwendbaren Integrationen adressiert.
Weitere Informationen finden Sie auf unserer Seite über Actian Data Platform.