Datenmanagement

Strukturierte Daten

Digitaler Entwurf einer futuristischen Umgebung auf der Grundlage von Würfeln, die strukturierte Daten darstellen

Strukturierte Daten sind dafür gedacht, von Anwendungsprogrammen und Menschen leicht verarbeitet werden zu können. Sie haben ein einheitliches, standardisiertes Format und folgen einem Datenmodell. Strukturierte Daten befinden sich in der Regel in einer relationalen Datenbank, so dass sie mit der strukturierten Anfrage (SQL) gelesen und bearbeitet werden können.

Wie unterscheiden sich strukturierte Daten von unstrukturierten und halbstrukturierten Daten?

Eine Möglichkeit, sie besser zu verstehen, besteht darin, sie mit halbstrukturierten und unstrukturierten Daten zu vergleichen:

Strukturierte Daten

Hat Datensätze mit adressierbaren Feldern. In einer relationalen Datenbank würde eine Tabelle aus Datensatzzeilen bestehen, die formell als Tupel bezeichnet werden. Mehrere Tabellen sind durch Schlüsselbeziehungen miteinander verbunden. Strukturierte Daten lassen sich für die Analyse leicht organisieren. Ein relationales Datenbankschema ist die Implementierung eines Datenmodells, das die Beziehungen zwischen den durch eine Tabellenstruktur dargestellten Einheiten abbildet.

Semi-Strukturiert

Bei den Daten handelt es sich in der Regel um ein Konstrukt mit variabler Zeichenlänge, das eine Notation wie JASON oder XML verwendet und benannte Elemente zusammen mit ihren Datenwerten enthält. Semistrukturierte Daten sind selbstbeschreibend, was ihre Verarbeitung vereinfacht, und können in einem Large Object (LOB)-Feld gespeichert werden.

Unstrukturiert

Eine einzelne Aufzeichnung , die kodierte Daten wie Video-, Audio- oder Textdateien enthält. Diese Art von Daten wird normalerweise in einem Dateisystem und nicht in einer strukturierten Datenbank gespeichert. Viele Datenbanksysteme können auf externe Daten verweisen, was effizienter ist als die interne Speicherung solcher Objekte als LOBs.

Beispiele für strukturierte Daten

Eine Kundentabelle in einer Datenbank ist ein gutes Beispiel. Die Kundentabelle enthält Details zu mehreren Instanzen der Kundenentität, die durch Zeilen dargestellt werden. Jede Zeile besteht aus mehreren Spalten, die jeweils ein bestimmtes Attribut über den Kunden enthalten, wie z. B. Vorname, Nachname, Adresse und Kunden-ID. Die Kunden-ID ist in der Regel der eindeutige Bezeichner, der die Kunden mit anderen Entitäten im Schema verbindet, z. B. mit Bestellungen.

In einem HR-Anwendungsschema können Sie Daten zu Mitarbeitern und Abteilungen erwarten.

Eine Salesforce-Automatisierungsdatenbank würde Vertriebsmitarbeiter, potenzielle Kunden sowie offene und abgeschlossene Leads verfolgen.

Verarbeitung strukturierter Daten

Eine der häufigsten Formen strukturierter Daten wird in Tabellenkalkulationen verwendet. Dienstprogramme für den Datenimport arbeiten in der Regel mit der CSV-Version (comma-delimited values), um Datenwerte zu lesen. Wenn die Datei Spaltenüberschriften enthält, kann das Dienstprogramm diese als Metadaten für die Benennung der Datenwerte verwenden. Datenintegrationsprodukte wie Actian DataConnect können die Daten einlesen, zuordnen, umwandeln und in das endgültige Ziel laden.

Anwendungsprogrammiersprachen (API) können Flachdateien lesen, indem sie Feldtrennzeichen und Zeilenend-Sonderzeichen zur Abgrenzung von Feldern und Datensätzen verwenden. Die Datensätze werden normalerweise in ein Array benannter Variablen eingelesen, die das Anwendungsprogramm verarbeiten kann.

Webanwendungsdienste können Streaming verwenden, um Datenströme zu empfangen. Um die Ausfallsicherheit zu gewährleisten, fließt der Ausgabedatenstrom in einen Datenspeicher mit einem Cache, in dem er sich im Falle eines Netzwerkausfalls ansammeln kann. Wenn die Verbindung wiederhergestellt ist, werden die zwischengespeicherten Daten von der empfangenden Webanwendung asynchron gelesen. Dienstprogramme für Streaming wie Apache Kafka unterstützen Veröffentlichungs- und Abonnement-Mechanismen zur gemeinsamen Nutzung von Quelldaten mit mehreren abonnierenden Anwendungen. Streaming können gleichermaßen gut für die gemeinsame Nutzung strukturierter und halbstrukturierter Daten verwendet werden.

Strukturierte Daten erstellen

Eine genaue Datenerfassung erfordert ein gewisses Maß an Validierung, wenn es sich um menschliche Eingaben handelt, die sehr fehleranfällig sein können. Anwendungen verwenden eine grafische Nutzer (GUI), um jeweils ein benanntes Feld zu erfassen, Formate zu validieren und nur gültige Werte zu akzeptieren. Gemeinsame Schnittstellen-Widgets wie Optionsfelder, Kontrollkästchen und Dropdown-Listen verbessern die Qualität der eingegebenen Datenwerte und sorgen für Beständigkeit. Berechnete Felder helfen, redundante Dateneingaben zu vermeiden. Beispiele für Anwendungen für die menschliche Dateneingabe sind Auftragserfassungssysteme, Software für die Steuererstellung und Umfragen.

In der Logistikbranche werden strukturierte Daten in der Regel mit Hilfe der EDI-Technologie (Electronic Data Exchange) zwischen Verladern und Spediteuren ausgetauscht. Der EDI-Standard hat sich im Laufe der Jahrzehnte weiterentwickelt und ist auch in anderen Branchen, wie dem Gesundheitswesen und der Telekommunikation, weit verbreitet.

Strukturierung von Daten am Netzwerkrand

IoT sind nicht auf menschliche Eingaben angewiesen und nutzen daher in der Regel die Verarbeitung von Maschine zu Maschine über APIs. Die Edge-Verarbeitung befasst sich mit der Filterung, Umwandlung und Strukturierung von Daten in der Nähe des Ortes, an dem die Daten am Rande von Netzwerken entstehen. Bei der IoT werden intelligente Geräte zur Erfassung von Sensordaten und deren Vorverarbeitung eingesetzt, damit die zentralen Verarbeitungsserver effizienter arbeiten können. Actian ZEN Edge Datenmanagement ist eine leichtgewichtige, kompakte Datenbank, die sich für Edge-Anwendungsfälle eignet.

Protokolldaten

Reaktive Sicherheits- und Marketingsysteme müssen die Daten nahezu in Echtzeit verarbeiten, um kritische Ereignisse wie Cyberangriffe oder den Besuch eines potenziellen Kunden auf einer Website zu erfassen. Diese Aktivitäten werden in Form von Protokolldatensätzen erfasst, die Zeitstempel, IP-Adressen und URLs der besuchten Seiten enthalten. Datenmanagement wie Actian haben spezielle Datentypen entwickelt, um Zeitstempel und IP-Adressformate in Datenbankwerte umzuwandeln und so die Analyse von Protokolldaten zu erleichtern.

Nutzung von strukturierten Daten mit der Actian Data Platform

Die Actian Data Platform wurde entwickelt, um den Import und die Analyse von strukturierten und halbstrukturierten Daten zu erleichtern. Die Actian Data Platform ist auf mehreren Cloud und vor Ort verfügbar, so dass die Verarbeitung der Analysen dort erfolgt, wo sich die Daten befinden. Die integrierte Datenintegrationstechnologie verwendet vordefinierte Vorlagen zum Laden gängiger Datenformate, einschließlich CSV, EDI und Protokolldaten. Streaming werden zusammen mit einem visuellen Datenstudio zur Vereinfachung der Datenerfassung unterstützt.