KI & ML

Vorbereitung der Daten

Dunkelblaue Hintergrundillustration mit einem farbigen Kreis, der in mehrere Abschnitte unterteilt ist, die sich von der Abbildung nach links erstrecken und die Datenaufbereitung darstellen.

Die Datenaufbereitung ist ein mehrstufiger Prozess zur Verfeinerung der Rohdaten aus den Quellsystemen und zur Vorbereitung auf die Datenanalyse.

Warum ist Datenvorbereitung wichtig?

Die Datenaufbereitung ist eine wesentliche Voraussetzung für die Bereitstellung hochwertiger Daten zur Unterstützung der Entscheidungsfindung. Die meisten Unternehmen verfügen über eine Fülle von Daten, aber oft fehlen ihnen die Ressourcen, um diese Daten ausreichend zu nutzen. Die Datenaufbereitung bietet eine Möglichkeit, Rohdaten effizient in eine Form umzuwandeln, die leicht zu analysieren ist.

Als Hadoop aufkam, verfügte die IT-Welt plötzlich über ein kostengünstiges, hoch skalierbar Dateisystem, um ein Lager potenziell nützlicher Daten und "Big Data"-Bewegungen zu schaffen. Cloud Speicher wurde bald kostengünstiger als On-Premises , so dass Unternehmen Data Lakes in öffentlichen Clouds einrichteten. Das Problem bei diesem Ansatz war, dass die Datenbestände schwer zu finden waren und aufbereitet werden mussten, um sie nutzbar zu machen. Datenaufbereitungssoftware und -prozesse oder Datenintegrationslösungen automatisierten schließlich die Bereitstellung hochwertiger Daten für Data Warehouses, Data Lakes und Daten-Lake , Data Meshes und Data Fabrics. Endlich haben Analysten und Datenwissenschaftler die Daten, die sie benötigen, in einer Form, die sie nutzen können, um durch Data Analytics und Maschinelles Lernen Erkenntnisse zu gewinnen.

Schritte der Datenaufbereitung

Die Datenaufbereitung besteht aus mehreren Schritten, die Folgendes umfassen können:

Zugriff auf Daten

Der Dateneingang ist der allererste Schritt der Datenaufbereitung. Er umfasst das Sammeln von Daten aus verschiedenen Quellen wie Datenbanken, Protokolldateien, bestehenden Data Lakes und social media und das Laden dieser Daten in ein zentrales Lager oder eine Datenverarbeitungsumgebung. Datenintegrationstechnologie wie DataConnect kann dabei helfen, eine Verbindung zu all diesen Quellen herzustellen und sie in Ihr Ziel zu laden. Es gibt vorgefertigte Konnektoren für die meisten Datenquellen und die Möglichkeit, schnell eigene Konnektor für hausgemachte Datenformate zu erstellen.

Profiling-Daten

Bei der Datenprofilierung werden Regeln verwendet, um die Genauigkeit, Vollständigkeit, Beständigkeit, Aktualität, Gültigkeit, Einzigartigkeit usw. von Quelldaten zu bewerten. Dies hilft, die Qualität der Quelldaten schnell zu bestimmen, die Art der Probleme zu identifizieren und Probleme zu reduzieren, die sich aus der Weitergabe von schlechten Daten an nachgelagerte Systeme und Anwendungen ergeben.

Daten filtern

In diesem Stadium hat eine Organisation entschieden, welche Fragen mit den Daten beantwortet werden sollen. Irrelevante oder überflüssige Datensätze und Felder können herausgefiltert werden, um den resultierenden Datensatz kompakter und schneller analysierbar zu machen. Alle abweichenden Werte können herausgefiltert werden, um Datenverzerrungen zu vermeiden.

Füllen von Lücken

Fehlende Werte können gegebenenfalls durch die Verwendung von Standardwerten oder durch Extrapolation oder Interpolation ersetzt werden, wenn die Quelldaten korrekt geordnet sind.

Zusammenführung von Daten

Datensätze müssen oft kombiniert werden, um ein vollständiges Bild zu erhalten. Bei der Zusammenführung multiple data muss sorgfältig vorgegangen werden, um die Erstellung doppelter Datensätze zu vermeiden. In Fällen, in denen zwei Datensätze mit demselben Schlüssel kombiniert werden müssen, werden Abgleichsregeln verwendet. Die Regeln helfen dabei, Lücken zu schließen oder den neueren Daten den Vorrang zu geben. Durch die Überprüfung von Daten aus mehreren Quellen können auch Datenwerte validiert werden, um die Datenqualität zu verbessern.

Daten umwandeln

Die Datentransformation ist ein wichtiger Schritt im Prozess, bei dem Rohdaten konvertiert, manipuliert oder umgestaltet werden, um sie für die Analyse, Modellierung oder Visualisierung geeignet zu machen.

Laden von Daten

Die nächste Phase ist das Laden der Daten. Der beste Weg, Daten zu analysieren, ist das Laden in eine analytikorientierte Datenbank wie Actian Vector. Hochgeschwindigkeitslader können die SQL-API umgehen und das parallele Laden für große Datenmengen nutzen. Um zu verhindern, dass die Eingabedatei zu einem E/A-Engpass wird, können die Daten in mehrere Dateien auf verschiedenen physischen Geräten aufgeteilt werden, um den Durchsatz zu maximieren.

Validierung von Daten

Bei der Datenvalidierung wird geprüft, ob die Daten den Datenqualitätsstandards entsprechen und ob durch die Umwandlungs- und Ladevorgänge keine Fehler entstanden sind.

Daten dokumentieren

Die Dokumentation trägt zur Transparenz und Reproduzierbarkeit Ihrer Zubereitungsprozesse bei.

Automatisierung der Datenaufbereitung

Die meisten Datenanalysen werden regelmäßig durchgeführt, so dass es sinnvoll ist, den gesamten Prozess wiederholbar zu machen, um die Daten nach einem Zeitplan zu aktualisieren oder aufzufrischen. Datenintegrationstools wie DataConnect bieten die Möglichkeit, eine Datenvorbereitungspipeline zu erstellen und geplante Aufgaben mit integrierter Ausnahmebehandlung für eventuelle Überraschungen zentral zu überwachen.

Die Vorteile der Datenvorbereitung

Die folgende Liste enthält einige der am häufigsten angeführten Vorteile der Datenaufbereitung:

  • Die Daten stehen kurzfristig zur Analyse zur Verfügung, so dass sich das Unternehmen schneller an Marktveränderungen anpassen kann.
  • Durch die Datenaufbereitung wird ein größerer Teil der Datenbestände eines Unternehmens produktiv.
  • Datenvorbereitungsskripte können wiederverwendet oder in automatisierten Datenpipelines verwendet werden.
  • Mit der Datenintegrationstechnologie kann der Datenaufbereitungsprozess zentral verwaltet werden.
  • Die Datenaufbereitung fördert data governance und Datenkatalogisierung.
  • Die automatisierte Datenaufbereitung liefert ein Protokoll für die Datenprovenienz.
  • Die Datenqualität wird verbessert.
  • Mehr Entscheidungen werden data driven , da Analysen mit zuverlässigen Daten einfacher durchzuführen sind.

Datenaufbereitung und -analyse mit der Actian Data Platform

Die Actian Data Platform bietet einen einheitlichen Ort für die Erstellung und Pflege aller Analyseprojekte. Durch die integrierte Datenintegration werden die Schritte der Datenaufbereitung geplant. Die Vector Analytics-Datenbank verwendet eine vektorisierte spaltenförmige Datenbank, die Alternativen um das 7,9-fache übertrifft.