Sollten Sie getrennte Dokument-, Zeitreihen- und NoSQL-SQL-Datenbanken haben?
Die Verwaltung und Analyse heterogener Daten stellt für die meisten Unternehmen eine Herausforderung dar, die durch die aufkommende Welle der Edge-Computing Datensätze noch verschärft wird. Diese Herausforderung ergibt sich aus einem ziemlich großen "Datentyp-Mismatch" sowie aus der Art und Weise, wie und wo die Daten in Anwendungen und Geschäftsprozesse integriert wurden. Wie sind wir hierher gekommen?
Früher handelte es sich bei den Daten größtenteils um Transaktionsdaten, die vonOLTP-(Online Transactional Processing) und ERP- (Enterprise Resource Planning) Systemen direkt verarbeitet wurden und stark strukturiert waren. In erster Linie erfüllten relationale Datenbankmanagementsysteme (RDBMS) die Anforderungen dieser Systeme und entwickelten sich schließlich zu Data Warehouses weiter, die Daten analytische Verarbeitung online OLAP) zur historischen Datenanalyse speichern und verwalten, beispielsweise von Unternehmen wie Teradata, IBM, SAP und Oracle.
Da die meisten papierbasierten manuellen Prozesse auf eine digitale Dokumentenverwaltung umgestellt wurden, entwickelten sich Content-Management-Systeme zu einem Mittel zur verwalten unstrukturierten Dokumente, die von Wissensarbeitern erstellt oder durch die erweiterten Funktionen von ERP- und PC-Systemen generiert wurden. Diese Systeme enthalten halbstrukturierte und unstrukturierte Dokumentdaten, die in den Formaten eXtensible Markup Language (XML) und JavaScript Object Notation (JSON) gespeichert sind.
Parallel dazu – und insbesondere in den letzten Jahren im Zuge der Revolution durch das Internet der Dinge (IoT) – steht uns die dritte Welle der Digitalisierung von Daten bevor, die am Netzwerkrand in Sensoren, Videokameras und anderen IoT stattfindet. Diese erzeugen die gesamte Bandbreite an strukturierten und unstrukturierten Daten, wobei zwei Drittel davon im Zeitreihenformat vorliegen. Keiner dieser beiden letztgenannten Datensätze eignet sich für RDBMS , die Data Warehouses untermauern, aufgrund der Art und Weise, wie die Daten verarbeitet und analysiert werden, der verwendeten Datenformate und der rasant wachsenden Datensatz .
Infolgedessen entstanden separate Dokumentenspeicherdatenbanken wie MongoDB und Couchbase sowie verschiedene Zeitreihendatenbanken, darunter InfluxDB und eine Vielzahl maßgeschneiderter Historian-Lösungen, um diese sehr unterschiedlichen Datensätze zu verarbeiten. Jede verfügt über eine eigene Anwendungsprogrammierschnittstelle (API), die unter dem Begriff NoSQL zusammengefasst werden, also alles, was nicht der Structured Query Language (SQL) entspricht.
Die Folge dieser drei Wellen von Datentypen und Datenbankstrukturen ist, dass Datenarchitekten nun separate Datenbanken für jeden Datentyp und jeden use case implementieren oder versuchen müssen, alle verschiedenen Datentypen in einer einzigen Datenbank zusammenzuführen und zu aggregieren. Bis vor kurzem war das traditionelle Data Warehouse der einzige bedeutende oder unternehmensweite Aggregationspunkt für mehrere Datenbanken und Datentypen. Das herkömmliche Data Warehouse ist jedoch aus zwei Gründen als Aggregationspunkt ins Hintertreffen geraten.
Erstens basieren viele von ihnen auf unflexiblen Architekturen, was ihre Fähigkeit zur verwalten und Zeitreihendaten sowie die Kosten für ihre Erweiterung zur Verwaltung größerer Datensätze oder die Komplexität moderner Analysen wie künstliche Intelligenz (KI) und Maschinelles Lernen ML) betrifft. Zweitens On-Premises das Senden aller Daten an einen einzigen, zentralisierten Standort On-Premises kostspielig sein und Entscheidungsfindung Ort des Geschehens am Rand des Netzwerks behindern.
In der Ära des Edge-Computing und der Tatsache, dass ein Großteil der Daten nicht mehr im Rechenzentrum oder in einem virtualisierten Abbild in der Cloud, sondern am Rande des Netzwerks erstellt wird, haben spezialisierte Anwendungen und Plattformen einen wesentlichen Zweck bei der Unterstützung von Geschäftsprozessen. So wie jeder Geschäftsprozess einzigartig ist, so sind auch die Datenanforderungen an die Technologie zur Unterstützung dieser Prozesse einzigartig. Auch wenn es den Anschein haben mag, dass die beste Datenbanktechnologie für Dokumentenspeicher, Zeitreihen oder traditionelle, vollständig strukturierte Transaktionsdaten die Beschränkungen für den Einsatz von Technologie in einem Unternehmen aufheben kann, sollten Sie sehr vorsichtig sein, bevor Sie diesen Weg einschlagen.
Je mehr APIs, zugrundeliegende Datenbankarchitekturen und die daraus resultierenden Unterschiede bei den unterstützenden Dateiformaten, Verwaltungs- und Überwachungssystemen und je nachdem, welche Systeme Sie je nach use case verwenden, desto komplexer werden Ihre Unternehmensdatenarchitekturen. Dies ist insbesondere dann der Fall, wenn Sie mehrere Produkte, Technologien und Integrationsmethoden mit dieser Vielzahl von Datenbanken anbieten oder implementieren. Diese Komplexität wirkt sich in der Regel als Dominoeffekt auf den Support-Lebenszyklus für jede Software aus, die diese Datenbanken nutzt - sogar auf die Beschaffung der Datenbanken.
Sofern Sie eine einzige Datenbank mit ähnlicher Leistung finden können, die alle Datentypen und SQL sowie die direkte Manipulation der Daten über eine NoSQL-API abdeckt, ist es viel sinnvoller, heterogene Daten in einer gemeinsamen Datenbankstruktur zusammenzuführen und zu aggregieren, insbesondere bei Edge-Computing . Wenn Sie beispielsweise Videoüberwachungsdaten, Sensornetzwerke und Protokolle für die Sicherheit betrachten, müssen Kombinationen dieser und anderer unterschiedlicher Datensätze für funktionsübergreifende Analysen zusammengeführt werden.
Wenn Sie Berichte und Dashboards auf der Grundlage von Daten unterschiedlichen Typs und aus verschiedenen Quellsystemen analysieren und erstellen müssen, benötigen Sie eine Möglichkeit, die Daten zu normalisieren, damit sie entweder On-Premises oder per Fernzugriff aus einem einzigen Datensatz abgefragt werden können.
Die Anforderungen haben sich in den letzten 30 Jahren geändert, und Actian hat eine neue modulare Datenbank entwickelt, die speziell für Edge-Computing-Technologien und Anwendungsfälle entwickelt wurde und in der Lage ist, alle Datensätze über eine einzige NoSQL-API zu verarbeiten, aber dennoch volle SQL-Konformität bietet. Sowohl bei den SQL- als auch bei den NoSQL-Funktionen zeigen unsere Benchmark-Ergebnissevon Drittanbietern eine weitaus bessere Leistung als jede der großen Document Store-, Time-Series- oder traditionellen SQL-Datenbanken, die in der Lage sind, Mobile und IoT zu verarbeiten.