Integration von Daten

Umfassender Leitfaden zur effektiven Datenaufbereitung

Actian Germany GmbH

Juli 28, 2021

Worte zur Datenaufbereitung und -analyse auf einem Laptop-Bildschirm

Abraham Lincoln könnte die Schritte der Datenvorbereitung für die Analytik erörtert haben, als er sagte: "Wenn ich 8 Stunden Zeit hätte, einen Baum zu fällen, würde ich 6 Stunden damit verbringen, meine Axt zu schärfen." 75 % der zur Verfügung stehenden Zeit für die Vorbereitung aufzuwenden, mag viel erscheinen. Tatsächlich aber berichten die meisten Branchenbeobachter, dass die Datenvorbereitungsschritte für die Geschäftsanalyse oder das Maschinelles Lernen 70 bis 80 % der von Datenwissenschaftlern und -analysten aufgewendeten Zeit in Anspruch nehmen.

Schritte der Datenaufbereitung im Detail

Die Datenaufbereitungspipeline besteht aus den folgenden Schritten:

  1. Zugriff auf die Daten.
  2. Einlesen (oder Abrufen) der Daten.
  3. Bereinigen Sie die Daten.
  4. Formatieren Sie die Daten.
  5. Kombinieren Sie die Daten.
  6. Und schließlich müssen die Daten analysiert werden.

Zugang

In jedem Unternehmen gibt es viele Quellen für Geschäftsdaten. Beispiele sind Endpunktdaten, Kundendaten, Marketingdaten und alle damit verbundenen Repositories. Dieser erste wichtige Schritt der Datenvorbereitung umfasst die Identifizierung der erforderlichen Daten und ihrer Repositories. Dabei geht es nicht nur darum, alle möglichen Datenquellen und Repositories zu identifizieren, sondern alle, die für die gewünschte Analyse in Frage kommen. Das bedeutet, dass es zunächst einen Plan geben muss, der die spezifischen Fragen enthält, die durch die Datenanalyse beantwortet werden sollen.

Einlesen

Sobald die Daten identifiziert sind, müssen sie in die Analysewerkzeuge gebracht werden. Bei den Daten wird es sich wahrscheinlich um eine Kombination aus strukturierten und halbstrukturierten Daten in verschiedenen Arten von Lagern handeln. Der Import aller Daten in ein gemeinsames Lager ist für die nachfolgenden Schritte in der Pipeline erforderlich. Der Zugriff und die Aufnahme von Daten sind in der Regel manuelle Prozesse mit erheblichen Unterschieden in Bezug auf das, was genau getan werden muss. Beide Datenvorbereitungsschritte erfordern eine Kombination aus Geschäfts- und IT-Fachwissen und werden daher am besten von einem kleinen Team durchgeführt. Dieser Schritt ist auch die erste Gelegenheit zur Datenvalidierung.

Reinigen

Durch die Bereinigung der Daten wird sichergestellt, dass der Datensatz bei der Analyse der Daten gültige Antworten liefern kann. Dieser Schritt kann bei kleinen Datensätzen manuell durchgeführt werden, erfordert aber bei den meisten Datensätzen von realistischer Größe eine Automatisierung. Es gibt Software-Tools für diese Verarbeitung. Wenn eine benutzerdefinierte Verarbeitung erforderlich ist, greifen viele Dateningenieure auf in Python programmierte Anwendungen zurück. Es gibt viele verschiedene Probleme, die mit den eingegebenen Daten auftreten können. Es können fehlende Werte, Werte außerhalb des zulässigen Bereichs, Nullen und Leerzeichen vorhanden sein, die die Werte verschleiern, sowie Ausreißer, die die Analyseergebnisse verfälschen können. Ausreißer sind besonders problematisch, wenn sie das Ergebnis der Kombination von zwei oder mehr Variablen im Datensatz sind. Datentechniker müssen sorgfältig planen, wie sie ihre Daten bereinigen wollen.

Format

Sobald der Datensatz bereinigt ist, muss er formatiert werden. Dieser Schritt umfasst die Beseitigung von Problemen wie mehrfache Datumsformate in den Daten oder inkonsistente Abkürzungen. Es ist auch möglich, dass einige Datenvariablen für die Analyse nicht benötigt werden und daher aus dem Analysedatensatz gelöscht werden sollten. Dies ist ein weiterer Schritt der Datenaufbereitung, der von der Automatisierung Nutzen wird. Die Bereinigungs- und Formatierungsschritte sollten in einem wiederholbaren Rezept gespeichert werden, das Datenwissenschaftler oder Ingenieure in Zukunft auf ähnliche Datensätze anwenden können. Eine monatliche Analyse von Vertriebs- und Supportdaten würde beispielsweise wahrscheinlich dieselben Quellen haben, die jeden Monat dieselben Bereinigungs- und Formatierungsschritte erfordern.

Mähdrescher

Nachdem der Datensatz bereinigt und formatiert wurde, kann er durch Zusammenführen, Aufteilen oder Verbinden der Eingabesätze transformiert werden. Sobald der Kombinationsschritt abgeschlossen ist, können die Daten in den Data-Warehouse-Staging-Bereich verschoben werden. Sobald die Daten in den Staging-Bereich geladen sind, gibt es eine zweite Gelegenheit zur Validierung.

Analysieren Sie

Sobald die Analyse begonnen hat, sollten Änderungen am Datensatz nur nach sorgfältiger Überlegung vorgenommen werden. Während der Analyse werden die Algorithmen häufig angepasst und mit anderen Ergebnissen verglichen. Änderungen an den Daten können die Analyseergebnisse verfälschen und es unmöglich machen, festzustellen, ob die unterschiedlichen Ergebnisse durch Änderungen an den Daten oder den Algorithmen verursacht wurden.

Grundsätze und bewährte Praktiken der Datenaufbereitung

Viele der Grundsätze der funktionalen Programmierung können auf die Datenaufbereitung angewendet werden. Es ist nicht notwendig, eine funktionale Programmiersprache zu verwenden, um die Datenaufbereitung zu automatisieren, aber solche Sprachen werden oft dafür verwendet.

  1. Verstehen Sie den Datenkonsumenten - wer wird die Daten nutzen und welche Fragen müssen beantwortet werden.
  2. Verstehen Sie die Daten - woher sie kommen und wie sie erzeugt wurden.
  3. Speichern Sie die Rohdaten. Wenn der Datentechniker über die Rohdaten verfügt, können alle Datenumwandlungen neu erstellt werden. Außerdem sollten Sie die Rohdaten nach dem Speichern nicht mehr verschieben oder löschen.
  4. Wenn möglich, speichern Sie alle Daten, roh und verarbeitet. Natürlich beeinflussen Datenschutzbestimmungen wie die Allgemeine Datenschutzverordnung (GDPR) der Europäischen Union (EU), welche Daten wie lange gespeichert werden dürfen.
  5. Sicherstellen, dass Transformationen reproduzierbar, deterministisch und idempotent sind. Jede Transformation muss bei jeder Ausführung mit demselben Eingabedatensatz dieselben Ergebnisse liefern, ohne schädliche Auswirkungen.
  6. Machen Sie Ihre Datenpipeline zukunftssicher. Versionieren Sie nicht nur die Daten und den Code, der die Analyse durchführt, sondern auch die Transformationen, die auf die Daten angewendet wurden.
  7. Stellen Sie sicher, dass es eine angemessene Trennung zwischen dem Online-System und der Offline-Analyse gibt, so dass der Ingest-Schritt keine Auswirkungen auf die Nutzer Dienste hat.
  8. Überwachen Sie die Datenpipeline auf Beständigkeit über Datensätze hinweg.
  9. Setzen Sie Data Governance frühzeitig ein, und seien Sie proaktiv. Das Bedürfnis der IT nach Sicherheit und Compliance bedeutet, dass die Integration von Funktionen wie Datenmaskierung, -aufbewahrung, -abfolge und rollenbasierte Berechtigungen wichtige Aspekte der Pipeline sind.

Sie müssen Ihre Daten und die Anforderungen Ihrer Kunden kennen und einen reproduzierbaren Prozess für den Aufbau Ihrer Datenaufbereitungspipeline einrichten.

Leichtere Datenintegration

Actian DataConnect ist eine vielseitige hybride Integrationslösung. Sie ermöglicht die Anbindung an praktisch jede Datenquelle, unabhängig von Format oder Speicherort, unter Verwendung eines beliebigen Protokolls, das Geschäftsanwendern, Integrationsspezialisten, SaaS-Administratoren und Line-of-Business-Eigentümern zur Verfügung steht. Die Benutzer können Integrationen entwerfen und verwalten und Daten schnell verschieben, während die IT-Abteilung die Unternehmensführung aufrechterhält. Erfahren Sie hier, wie Actian Sie bei all Ihren Anforderungen an Datenintegration, Datenmanagement und Datenspeicherung unterstützen kann.

actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, Verwaltung und Analyse von Daten in Cloud-, Hybrid- und lokalen Umgebungen. Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und -analyse liefert Actian leistungsstarke Lösungen, die es Unternehmen ermöglichen, datengesteuerte Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und wurde für seine Leistung und Innovation mit Branchenpreisen ausgezeichnet. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im ActianBlog behandeln wir Themen wie Echtzeit-Dateneingabe, Datenanalyse, Data Governance, Datenmanagement, Datenqualität, Datenintelligenz und KI-gesteuerte Analysen.