Bevor Daten für einen bestimmten Zweck verwendet werden, z. B. zum training eines Modells Maschinelles Lernen (ML) oder zur Datenanalyse, müssen sie aufbereitet werden. Die Aufbereitung von Daten kann das Füllen von Lücken, die Normalisierung der Verteilung und das Entfernen von Ausreißern umfassen, um möglichst genaue Ergebnisse zu erzielen.
Warum ist Bereitschaft wichtig?
Rohe Quelldaten, die nicht auf Bereitschaft geprüft wurden, können zu ungenauen oder irreführenden analytischen Ergebnissen führen. Entscheidungen, die auf solchen Daten beruhen, führen mit größerer Wahrscheinlichkeit zu unbeabsichtigten Ergebnissen. Wenn beispielsweise Ausreißer nicht entfernt werden, führt dies zu verzerrten Schlussfolgerungen und zu Verzerrungen in den KI-Modellen.
Eine Checkliste zur Bereitschaft
Nachfolgend sind einige der Faktoren aufgeführt, die bei der Vorbereitung von Daten für KI- oder Analyseanwendungen zu berücksichtigen sind:
- Handelt es sich bei den Daten um eine repräsentative Stichprobe, die eine ausreichende Anzahl von Werten enthält, um signifikant zu sein?
- Wurden Lücken mit Hilfe mehrerer Quellen oder durch Extrapolation geschlossen?
- Wurden abweichende Werte entfernt oder niedriger gewichtet als Kernwerte?
- Sind die Ziele gekennzeichnet, wenn die Daten für Maschinelles Lernen verwendet werden?
- Wurden dieselben Daten mit einem Raster versehen, um Stichproben über ein räumliches oder zeitliches Kontinuum zu erhalten?
Daten bereitstellen
Nachfolgend finden Sie mehrere Möglichkeiten, Daten in den Zustand der Bereitschaft zu versetzen:
Intelligente Deduplizierung
Viele Datenfelder sollen Duplikate enthalten, z. B. die Farbe eines Produkts oder Postleitzahlen. Wenn Felder für Schlüsselwerte wie z. B. E-Mail-Adressen in einem Kontaktdatensatz verwendet werden, sollten die Datenwerte idealerweise eindeutig sein. Eine grobe Methode, Kopien von doppelten Datensätzen zu entfernen, ist das einfache Löschen von Zeilen. Eine intelligentere Methode ist die Verwendung eines regelbasierten Ansatzes, bei dem das jüngste Vorkommen beibehalten wird, oder die Zusammenführung und Abstimmung von Datensätzen durch Anreicherung der vorhandenen Daten mit zusätzlichen Feldwerten aus doppelten Instanzen.
Erhöhung der Beständigkeit
Bei der Konsolidierung von Datensätzen aus mehreren Quellen können sich Unstimmigkeiten einschleichen. So kann es vorkommen, dass in einigen Regionen der Staat des Kunden ausgeschrieben ist. Dies lässt sich mit einem Skript oder einer SQL-Anweisung, die ein CASE-Prädikat enthält, leicht beheben.
Füllen von Lücken
Lücken in den Daten können gefüllt werden, indem man auf multiple data zurückgreift und Standardwerte zuweist. In vielen Fällen kann ein extrapolierter oder interpolierter Wert verwendet werden, um Lücken zu schließen.
Herausragende Werte entfernen
Ausreißerwerte können entfernt werden, um zu vermeiden, dass die Analyse durch Ausreißerwerte übermäßig verzerrt oder verzerrt wird.
Daten herausfiltern
Daten, die für einen vorgelagerten Prozess wichtig sind, können für eine analytische Anwendung irrelevant werden. In diesem Fall können unnötige Daten herausgefiltert werden. Dies reduziert die nachgelagerte CPU und Speichernutzung und schützt gleichzeitig die Gültigkeit der Analyse. Dies ist besonders wichtig für große Datensätze, die auf einer öffentlichen Cloud verwendet werden, wo man nach Ressourcenverbrauch bezahlt. Die Daten sollten zunehmend gefiltert werden, je mehr sie auf die Beantwortung spezifischerer Fragen ausgerichtet werden.
Aufteilung
Wenn das Ergebnis eines analytischen Prozesses zeitkritisch ist, können Daten vorpartitioniert werden, um die Verarbeitungszeit zu beschleunigen. Die Partitionierung kann auf der Grundlage eines Schlüsselwerts, eines Wertebereichs oder eines Hashs erfolgen, um die Daten gleichmäßig auf die Partitionen zu verteilen. Die Partitionierung beschleunigt die Verarbeitungszeiten für große Datensätze erheblich, da die Parallelverarbeitung effizienter wird. Bereichsabfragen können ebenfalls beschleunigt werden, indem Partitionen mit Werten, die nicht den Bereichskriterien entsprechen, einfach übersprungen werden können.
Daten umwandeln
Datenintegrationstools wie Actian DataConnect oder die Integration als Service auf der Actian Data Platform können verwendet werden, um Datenformate zu ändern, um die Übereinstimmung zu verbessern, führende oder nachgestellte Leerzeichen zu entfernen und führende Nullen hinzuzufügen. Regulierte Daten können maskiert oder verschleiert werden, um die Privatsphäre der Kunden zu schützen.
Verwendung der Validierung zur Verbesserung der Datenqualität
Eine sinnvolle Methode zur Durchsetzung der Datengültigkeit ist der Vergleich mehrerer Datenquellen, um die Datenintegrität sicherzustellen.
Automatisierte Bereitschaft
A Datenpipeline Prozess, der von einer Datenintegrationslösung verwaltet wird, kann zur Automatisierung der Bereitschaft beitragen. Eine vorprogrammierte und geplante Reihe von Aufgaben kann miteinander verkettet werden, um die Bereitschaft zu unterstützen. Eine Datenvorbereitungspipeline kann Schritte zum Extrahieren, Filtern, Transformieren, Lückenfüllen und Überprüfen von Datenpartitionsdaten enthalten.
Die Vorteile der Bereitschaft
Die wichtigsten Gründe für die Einführung der Bereitschaft sind:
- Vermeiden Sie Verzögerungen bei der Datenanalyse aufgrund von unvollständigen oder rohen Daten.
- Erhöhung der Menge und Qualität der Daten, die Analysten und Datenwissenschaftlern zur Verfügung stehen.
- Dem Unternehmen die Möglichkeit geben, die vorherrschenden Marktbedingungen zu verstehen und schnell zu handeln.
- Steigern Sie Ihre Wettbewerbsfähigkeit, indem Sie schneller auf sich ändernde Kundenbedürfnisse und Marktdynamik reagieren.
Actian und Data Bereitschaft
Die Actian Data Platform umfasst eine hochgradig skalierbar hybride Integrationslösung, die qualitativ hochwertige Daten für die Vereinheitlichung, Umwandlung und Orchestrierung von Datenpipelines zur Förderung der Bereitschaft liefert. DataConnect ist eine intelligente, Low-Code-Integrationsplattform, die komplexe Anwendungsfälle mit automatisierten, intuitiven und wiederverwendbaren Integrationen adressiert.
Die Actian Vector-Datenbank erleichtert die Durchführung von Marktanalysen durch ihre Vertikale Speicherung , die den Bedarf an bereits vorhandenen Datenindizes minimiert. Die Vektorverarbeitung beschleunigt Abfragen, indem sie mehrere CPU mit einer single instruction nutzt.
Die Actian Data Platform kann sowohl vor Ort als auch auf verschiedenen Cloud betrieben werden, um Ihre Analysen dort auszuführen, wo sich Ihre Daten befinden. Erfahren Sie hier mehr.