Datenmanagement

Strukturierte Daten

Digitaler Entwurf einer futuristischen Umgebung auf der Grundlage von Würfeln, die strukturierte Daten darstellen

Strukturierte Daten sind dafür gedacht, von Anwendungsprogrammen und Menschen leicht verarbeitet werden zu können. Sie haben ein einheitliches, standardisiertes Format und folgen einem Datenmodell. Strukturierte Daten befinden sich in der Regel in einer relationalen Datenbank, so dass sie mit Hilfe der strukturierten abfragen (SQL) gelesen und manipuliert werden können.

Wie unterscheiden sich strukturierte Daten von unstrukturierten und halbstrukturierten Daten?

Eine Möglichkeit, sie besser zu verstehen, besteht darin, sie mit halbstrukturierten und unstrukturierten Daten zu vergleichen:

Strukturierte Daten

Hat Datensätze mit adressierbaren Feldern. In einer relationalen Datenbank würde eine Tabelle aus Datensatzzeilen bestehen, die formell als Tupel bezeichnet werden. Mehrere Tabellen sind durch Schlüsselbeziehungen miteinander verbunden. Strukturierte Daten lassen sich für die Analyse leicht organisieren. Ein relationales Datenbankschema ist die Implementierung eines Datenmodells, das die Beziehungen zwischen den durch eine Tabellenstruktur dargestellten Einheiten abbildet.

Semi-Strukturiert

Bei den Daten handelt es sich in der Regel um ein Konstrukt mit variabler Zeichenlänge, das eine Notation wie JASON oder XML verwendet und benannte Elemente zusammen mit ihren Datenwerten enthält. Semistrukturierte Daten sind selbstbeschreibend, was ihre Verarbeitung vereinfacht, und können in einem Large Object (LOB)-Feld gespeichert werden.

Unstrukturiert

Eine einzelne Aufzeichnung , die kodierte Daten wie Video-, Audio- oder Textdateien enthält. Diese Art von Daten wird normalerweise in einem Dateisystem und nicht in einer strukturierten Datenbank gespeichert. Viele Datenbanksysteme können auf externe Daten verweisen, was effizienter ist als die interne Speicherung solcher Objekte als LOBs.

Beispiele für strukturierte Daten

Eine Kundentabelle in einer Datenbank ist ein gutes Beispiel. Die Kundentabelle enthält Details zu mehreren Instanzen der Kundenentität, die durch Zeilen dargestellt werden. Jede Zeile besteht aus mehreren Spalten, die jeweils ein bestimmtes Attribut über den Kunden enthalten, wie z. B. Vorname, Nachname, Adresse und Kunden-ID. Die Kunden-ID ist in der Regel der eindeutige Bezeichner, der die Kunden mit anderen Entitäten im Schema verbindet, z. B. mit Bestellungen.

In einem HR-Anwendungsschema können Sie Daten zu Mitarbeitern und Abteilungen erwarten.

Eine Salesforce-Automatisierungsdatenbank würde Vertriebsmitarbeiter, potenzielle Kunden sowie offene und abgeschlossene Leads verfolgen.

Verarbeitung strukturierter Daten

Eine der häufigsten Formen strukturierter Daten wird in Tabellenkalkulationen verwendet. Dienstprogramme für den Datenimport arbeiten in der Regel mit der CSV-Version (comma-delimited values), um Datenwerte zu lesen. Wenn die Datei Spaltenüberschriften enthält, kann das Dienstprogramm diese als Metadaten für die Benennung der Datenwerte verwenden. Datenintegrationsprodukte wie Actian DataConnect können die Daten einlesen, zuordnen, umwandeln und in das endgültige Ziel laden.

Anwendungsprogrammiersprachen (API) können Flachdateien lesen, indem sie Feldtrennzeichen und Zeilenend-Sonderzeichen zur Abgrenzung von Feldern und Datensätzen verwenden. Die Datensätze werden normalerweise in ein Array benannter Variablen eingelesen, die das Anwendungsprogramm verarbeiten kann.

Webanwendungsdienste können Streaming verwenden, um Datenströme zu empfangen. Um die Ausfallsicherheit zu gewährleisten, fließt der Ausgabedatenstrom in einen Datenspeicher mit einem Cache, in dem er sich im Falle eines Netzwerkausfalls ansammeln kann. Wenn die Verbindung wiederhergestellt ist, werden die zwischengespeicherten Daten von der empfangenden Webanwendung asynchron gelesen. Dienstprogramme für Streaming wie Apache Kafka unterstützen Veröffentlichungs- und Abonnement-Mechanismen zur gemeinsamen Nutzung von Quelldaten mit mehreren abonnierenden Anwendungen. Streaming können gleichermaßen gut für die gemeinsame Nutzung strukturierter und halbstrukturierter Daten verwendet werden.

Strukturierte Daten erstellen

Eine genaue Datenerfassung erfordert ein gewisses Maß an Validierung, wenn es sich um menschliche Eingaben handelt, die sehr fehleranfällig sein können. Anwendungen verwenden eine grafische Nutzer (GUI), um jeweils ein benanntes Feld zu erfassen, Formate zu validieren und nur gültige Werte zu akzeptieren. Gemeinsame Schnittstellen-Widgets wie Optionsfelder, Kontrollkästchen und Dropdown-Listen verbessern die Qualität der eingegebenen Datenwerte und sorgen für Beständigkeit. Berechnete Felder helfen, redundante Dateneingaben zu vermeiden. Beispiele für Anwendungen für die menschliche Dateneingabe sind Auftragserfassungssysteme, Software für die Steuererstellung und Umfragen.

In der Logistikbranche werden strukturierte Daten in der Regel mit Hilfe der EDI-Technologie (Electronic Data Exchange) zwischen Verladern und Spediteuren ausgetauscht. Der EDI-Standard hat sich im Laufe der Jahrzehnte weiterentwickelt und ist auch in anderen Branchen, wie dem Gesundheitswesen und der Telekommunikation, weit verbreitet.

Strukturierung von Daten am Netzwerkrand

IoT sind nicht auf menschliche Eingaben angewiesen und nutzen daher in der Regel die Verarbeitung von Maschine zu Maschine über APIs. Die Edge-Verarbeitung befasst sich mit der Filterung, Umwandlung und Strukturierung von Daten in der Nähe des Ortes, an dem die Daten am Rande von Netzwerken entstehen. Bei der IoT werden intelligente Geräte zur Erfassung von Sensordaten und deren Vorverarbeitung eingesetzt, damit die zentralen Verarbeitungsserver effizienter arbeiten können. Actian ZEN Edge Datenmanagement ist eine leichtgewichtige, kompakte Datenbank, die sich für Edge-Anwendungsfälle eignet.

Protokolldaten

Reaktive Sicherheits- und Marketingsysteme müssen die Daten nahezu in Echtzeit verarbeiten, um kritische Ereignisse wie Cyberangriffe oder den Besuch eines potenziellen Kunden auf einer Website zu erfassen. Diese Aktivitäten werden in Form von Protokolldatensätzen erfasst, die Zeitstempel, IP-Adressen und URLs der besuchten Seiten enthalten. Datenmanagement wie Actian haben spezielle Datentypen entwickelt, um Zeitstempel und IP-Adressformate in Datenbankwerte umzuwandeln und so die Analyse von Protokolldaten zu erleichtern.

Actian und die Data Intelligence Plattform

Die Actian Data Intelligence Platform wurde speziell dafür entwickelt, Unternehmen bei der Vereinheitlichung, verwalten und dem Verständnis ihrer Daten in hybriden Umgebungen zu unterstützen. Sie vereint Metadaten , Governance, Lineage, Qualitätsüberwachung und Automatisierung in einer einzigen Plattform. So können Teams sehen, woher die Daten kommen, wie sie verwendet werden und ob sie internen und externen Anforderungen entsprechen.

Durch seine zentrale Schnittstelle unterstützt Actian Erkenntnis über Datenstrukturen und -flüsse und erleichtert so die Anwendung von Richtlinien, die Lösung von Problemen und die abteilungsübergreifende Zusammenarbeit. Die Plattform hilft auch dabei, Daten mit dem geschäftlichen Kontext zu verbinden, damit Teams Daten effektiver und verantwortungsvoller nutzen können. Die Plattform von Actian ist so konzipiert, dass sie mit sich entwickelnden Datenökosystemen skaliert und eine konsistente, intelligente und sichere Datennutzung im gesamten Unternehmen unterstützt. Fordern Sie Ihr persönliches Demo an.

FAQ

Strukturierte Daten sind Informationen, die in einem einheitlichen Standardformat organisiert sind, das einem Datenmodell folgt, wodurch sie sowohl von Anwendungsprogrammen als auch von Menschen leicht verarbeitet werden können. Sie werden üblicherweise in relationalen Datenbanken gespeichert und können mithilfe von SQL gelesen und bearbeitet werden.

Strukturierte Daten bestehen aus Datensätzen mit adressierbaren Feldern, die in Tabellen mit Zeilen und Spalten organisiert sind, während semistrukturierte Daten Notationen wie JSON oder XML mit benannten Elementen verwenden und unstrukturierte Daten aus einzelnen Datensätzen bestehen, die kodierte Daten wie Video-, Audio- oder Textdateien enthalten, die in Dateisystemen gespeichert sind.

Typische Beispiele sind Kundentabellen mit Feldern wie Vorname, Nachname, Adresse und Kunden-ID, Mitarbeiter- und Abteilungsdaten in HR-Anwendungen sowie Salesforce-Automatisierungsdatenbanken, in denen Vertriebsmitarbeiter, potenzielle Kunden und Verkaufskontakte erfasst werden.

Anwendungen nutzen grafische Nutzer (GUIs), um Daten nacheinander in benannte Felder einzugeben, wobei sie Formate überprüfen und über Widgets wie Optionsfelder, Kontrollkästchen und Dropdown-Listen nur gültige Werte akzeptieren, um die Datenqualität zu verbessern und Beständigkeit zu gewährleisten.

Actian bietet DataConnect für die Erfassung, Zuordnung, Transformation und das Laden von Daten, ZEN Edge Datenmanagement schlanke Edge-Anwendungsfälle sowie die Data Intelligence Platform für die Vereinheitlichung, Verwaltung und Auswertung von Daten in hybriden Umgebungen.

IoT nutzen die Maschine-zu-Maschine-Verarbeitung über APIs in Verbindung mit Edge-Computing, um Daten nahe am Entstehungsort zu filtern, umzuwandeln und zu strukturieren. Dabei werden häufig intelligente Geräte eingesetzt, um Sensordaten zu erfassen und für eine effizientere zentrale Verarbeitung vorzuverarbeiten.

 

Protokolleinträge erfassen kritische Ereignisse wie Cyberangriffe oder Website-Besuche mit Zeitstempeln, IP-Adressen und URLs, die in spezielle Datenbankdatentypen abgebildet werden können, um eine leichter zugängliche Echtzeitanalyse in reaktiven Sicherheits- und Marketingsystemen zu ermöglichen.