Sollten Sie getrennte Dokument-, Zeitreihen- und NoSQL-SQL-Datenbanken haben?

Cloud -Warehouse #Datenlager #Datenbanken

Cloud -Warehouse #Datenlager #Datenbanken

Die Verwaltung und Analyse heterogener Daten stellt für die meisten Unternehmen eine Herausforderung dar, die durch die aufkommende Welle der Edge-Computing Datensätze noch verschärft wird. Diese Herausforderung ergibt sich aus einem ziemlich großen "Datentyp-Mismatch" sowie aus der Art und Weise, wie und wo die Daten in Anwendungen und Geschäftsprozesse integriert wurden. Wie sind wir hierher gekommen?

Früher waren die Daten weitgehend transaktional und wurden von Online Transactional Processing(OLTP) und Enterprise Resource Planning (ERP) Systemen inline verarbeitet und waren stark strukturiert. Die Anforderungen dieser Systeme wurden in erster Linie von relationalen DatenbankmanagementsystemenRDBMS) erfüllt, die sich schließlich zu Data Warehouses entwickelten, in denen analytische Verarbeitung online (OLAP) für die Analyse historischer Daten von verschiedenen Unternehmen wie Teradata, IBM, SAP und Oracle gespeichert und verwaltet wurde.

Als die meisten manuellen Prozesse, bei denen Papier verwendet wird, zur digitalen Aktenverwaltung übergingen, entstanden Content-Management-Systeme als Mittel zur verwalten all der unstrukturierten Dokumente, die von Wissensarbeitern stammen oder die durch die erweiterten Funktionen in ERP- und Personal-Computing-Systemen automatisch generiert werden. Diese Systeme enthalten halbstrukturierte und unstrukturierte Dokumentdaten, die in den Formaten eXtensible Markup Language (XML) und JavaScript Object Notation (JSON) gespeichert werden.

Parallel dazu und verstärkt in den letzten Jahren mit der Revolution des Internets der DingeIoT) ist die dritte Welle der Digitalisierung von Daten im Gange, die in Sensoren, Video- und anderen IoT am Rande der Gesellschaft stattfindet. Sie erzeugen das gesamte Spektrum strukturierter und unstrukturierter Daten, wobei zwei Drittel davon in einem Zeitreihenformat vorliegen. Keiner dieser späteren Datensätze eignet sich für RDBMS , die Data Warehouses zugrunde liegen, aufgrund der Art und Weise, wie die Daten verarbeitet und analysiert werden, der verwendeten Datenformate und der ausufernden Datensatz .

Infolgedessen entstanden separate Dokumentenspeicherdatenbanken wie MongoDB und Couchbase sowie mehrere Zeitseriendatenbanken, darunter InfluxDB und eine Vielzahl maßgeschneiderter Historians, um diese sehr unterschiedlichen Datensätze zu verarbeiten. Jede verfügt über eine eigene Anwendungsprogrammierschnittstelle (API), die unter dem Begriff NoSQL zusammengefasst wird - also alles, was keine strukturierte Anfrage (SQL) ist.

Die Folge dieser drei Wellen von Datentypen und Datenbankstrukturen ist, dass Datenarchitekten nun separate Datenbanken für jeden Datentyp und jeden use case implementieren oder versuchen müssen, alle verschiedenen Datentypen in einer einzigen Datenbank zusammenzuführen und zu aggregieren. Bis vor kurzem war das traditionelle Data Warehouse der einzige bedeutende oder unternehmensweite Aggregationspunkt für mehrere Datenbanken und Datentypen. Das herkömmliche Data Warehouse ist jedoch aus zwei Gründen als Aggregationspunkt ins Hintertreffen geraten.

Erstens basieren viele von ihnen auf unflexiblen Architekturen, was ihre Fähigkeit zur Verwaltung von JSON- und Zeitreihendaten und die Kosten für die Erweiterung zur Verwaltung größerer Datensätze oder die Komplexität moderner Analysen wie künstliche Intelligenz (KI) und maschinelles Lernen (ML) angeht. Zweitens kann es kostspielig sein, alle Daten an einen einzigen, zentralisierten Ort On-Premises zu senden, und behindert die Entscheidungsfindung am Ort des Geschehens am Rande des Netzwerks.

In der Ära des Edge-Computing und der Tatsache, dass ein Großteil der Daten nicht mehr im Rechenzentrum oder in einem virtualisierten Abbild in der Cloud, sondern am Rande des Netzwerks erstellt wird, haben spezialisierte Anwendungen und Plattformen einen wesentlichen Zweck bei der Unterstützung von Geschäftsprozessen. So wie jeder Geschäftsprozess einzigartig ist, so sind auch die Datenanforderungen an die Technologie zur Unterstützung dieser Prozesse einzigartig. Auch wenn es den Anschein haben mag, dass die beste Datenbanktechnologie für Dokumentenspeicher, Zeitreihen oder traditionelle, vollständig strukturierte Transaktionsdaten die Beschränkungen für den Einsatz von Technologie in einem Unternehmen aufheben kann, sollten Sie sehr vorsichtig sein, bevor Sie diesen Weg einschlagen.

Je mehr APIs, zugrundeliegende Datenbankarchitekturen und die daraus resultierenden Unterschiede bei den unterstützenden Dateiformaten, Verwaltungs- und Überwachungssystemen und je nachdem, welche Systeme Sie je nach use case verwenden, desto komplexer werden Ihre Unternehmensdatenarchitekturen. Dies ist insbesondere dann der Fall, wenn Sie mehrere Produkte, Technologien und Integrationsmethoden mit dieser Vielzahl von Datenbanken anbieten oder implementieren. Diese Komplexität wirkt sich in der Regel als Dominoeffekt auf den Support-Lebenszyklus für jede Software aus, die diese Datenbanken nutzt - sogar auf die Beschaffung der Datenbanken.

Sofern Sie eine einzige Datenbank mit ähnlicher Leistung finden können, die alle Datentypen und SQL sowie die direkte Manipulation der Daten über eine NoSQL-API abdeckt, ist es viel sinnvoller, heterogene Daten in einer gemeinsamen Datenbankstruktur zusammenzuführen und zu aggregieren, insbesondere bei Edge-Computing . Wenn Sie beispielsweise Videoüberwachungsdaten, Sensornetzwerke und Protokolle für die Sicherheit betrachten, müssen Kombinationen dieser und anderer unterschiedlicher Datensätze für funktionsübergreifende Analysen zusammengeführt werden.

Wenn Sie Berichte und Dashboards auf der Grundlage von Daten unterschiedlichen Typs und aus verschiedenen Quellsystemen analysieren und erstellen müssen, benötigen Sie eine Möglichkeit, die Daten zu normalisieren, damit sie entweder On-Premises oder per Fernzugriff aus einem einzigen Datensatz abgefragt werden können.

Die Anforderungen haben sich in den letzten 30 Jahren geändert, und Actian hat eine neue modulare Datenbank entwickelt, die speziell für Edge-Computing-Technologien und Anwendungsfälle entwickelt wurde und in der Lage ist, alle Datensätze über eine einzige NoSQL-API zu verarbeiten, aber dennoch volle SQL-Konformität bietet. Sowohl bei den SQL- als auch bei den NoSQL-Funktionen zeigen unsere Benchmark-Ergebnisse^{von Drittanbietern} eine weitaus bessere Leistung als jede der großen Document Store-, Time-Series- oder traditionellen SQL-Datenbanken, die in der Lage sind, Mobile und IoT zu verarbeiten.

Über den Autor