Data-Warehousing-Software verwaltet und speichert Daten aus vielen Quellen und erleichtert so die Analyse und Visualisierung zur Unterstützung der Entscheidungsfindung in Unternehmen.
Was ist Data Warehouse Software?
Ein Data Warehouse ist im Wesentlichen eine Datenbank, die für eine einfache Suche strukturiert ist. Transaktionsdatenbanken werden für Anwendungen wie z. B. die Auftragserfassung verwendet. Sie sind daher für die Verarbeitung großer Mengen von Einfügungen für neue Aufträge ausgelegt und haben nur wenige Indizes zu pflegen. Data-Warehouses haben oft aufwendige Sternschemata, die in einer einzigen Faktentabelle mit allen Attributen zu einem Themenbereich organisiert sind, umgeben von vielen Dimensionstabellen, die gängigen Abfragen entsprechen und zur Unterstützung dieser Abfragen indiziert sind. Bei einer moderneren Data-Warehouse-Architektur, den spaltenorientierten Datenbanken, werden Tabellen als einzelne Spalten gespeichert. Dies ist der Fall bei der von der Actian Data Platform verwendeten Data-Warehousing-Engine.
Warum Data-Warehouse-Software verwenden?
Bevor Data Warehouses populär wurden, entluden die Unternehmen einfach jede Nacht Daten aus den operativen Datenbanken, erstellten eine Kopie der Datenbank, fügten zusätzliche Indizes hinzu und führten Berichte aus. Dies geschah in erster Linie, um die operative Datenbank für geschäftskritische Transaktionen freizuhalten, z. B. für die Annahme von Kundenbestellungen, ohne die Ressourcen mit internen Benutzern teilen zu müssen. Im Folgenden finden Sie weitere Beispiele dafür, warum Unternehmen Data Warehouses einsetzen:
- Ein Data-Warehouse kann so strukturiert werden, dass es die geschäftliche Entscheidungsfindung unterstützt, z. B. durch Berichte darüber, wo die Kunden bestimmte Produkte kaufen. Diese Daten können bei der Entscheidung helfen, welcher Vertrieb bestimmte Produkte vorrätig haben sollte.
- Ein Data Warehouse kann als Lager für Daten aus mehreren Geschäftsbereichen und Anwendungen verwendet werden, um eine zentrale Drehscheibe für Geschäftsdaten zu schaffen. Ein Unternehmens-Data-Warehouse kann zur Erstellung von Dashboards verwendet werden, die dem Management zeigen, wie ein Unternehmen im Vergleich zu den KPIs abschneidet.
- Ein verteiltes Data Warehouse kann in einer geografischen Abteilung eines Unternehmens mit lokalen Analysen bei minimaler Netzwerklatenz eingesetzt werden.
- Ein Daten-Lake kann als Erweiterung eines Data Warehouses für Ad-hoc-Abfragen genutzt werden.
- Ohne ein Data-Warehouse und benutzerfreundliche business intelligence (BI)-Tools wären die Unternehmensanalysten auf vielbeschäftigte IT-Teams angewiesen, was zu Verzögerungen und potenziell verpassten Marktchancen führen würde.
- Ein Data Warehouse für den Einzelhandel kann zur Durchführung von Warenkorbanalysen verwendet werden, um den Produktbestand und die Produktplatzierung zu optimieren.
- Data Warehouses für das Gesundheitswesen können zur Analyse von Daten aus klinischen Studien verwendet werden, um Zusammenhänge zwischen Symptomen und Behandlungen zu ermitteln.
- IT-Service-Organisationen können ein Data Warehouse nutzen, um bei Vorfällen nach den Ursachen zu suchen und langfristige Probleme in ihrer Software oder ihrem Service zu beheben.
- Ein Data Warehouse kann verwendet werden, um Entscheidungsunterstützungstools wie Würfel zu füllen, die voraggregierte Datenscheiben und -würfel für schnelle Analysen enthalten.
Wie funktioniert Data Warehouse Software?
Ein Kernstück der meisten Data-Warehouse-Software-Systeme ist eine Instanz relational database management system RDBMS), das die Datenbewegungen zwischen dem Arbeitsspeicher und dem sekundären Dateispeicher verwaltet. Die Datenbankinstanz stellt eine Verbindung zu Client-Anwendungen her, damit sie eingereichte Abfragen und andere Anfragen verarbeiten kann. Abfragen werden geparst, Anfrage werden erstellt und ausgeführt, und Ergebnismengen werden an die anfragende Sitzung zurückgegeben. Bei Aktualisierungsvorgängen führt die Datenbankinstanz die Transaktionsverwaltung durch, so dass mehrere SQL INSERT-, UPDATE- und DELETE-Vorgänge bestätigt oder zurückgenommen werden können.
- Sitzungsverwaltung: Verwaltet die Verbindung zu Client-Anwendungen, die als Pool von einem Load Balancer verwaltet werden können. Die Datenbankinstanz ist auch für die Aufrechterhaltung der Beständigkeit der Daten verantwortlich, so dass jedeAnfrage , die Ergebnisse aggregiert oder gruppiert, immer mit dem Zeitpunkt des Beginns der Anfrage übereinstimmt, so dass Ihre Tabellen immer stimmen.
- Aufrechterhaltung der Datenbankintegrität: Kritisch, daher muss das Data Warehouse sicherstellen, dass alle Schreibvorgänge im Speicher immer in den Sekundärspeicher zurückgelangen. Alle Data-Warehouses verfügen über Transaktionsprotokolle, um die Integrität der Datenbank zu gewährleisten. Angenommen, beim Neustart kommt es zu einem unerwarteten Serverausfall. In diesem Fall verwendet die Datenbankinstanz das Transaktionsprotokoll, um ein Rollback zum letzten Prüfpunkt durchzuführen, bevor sie zu einem konsistenten Punkt zurückkehrt.
- Hohe Verfügbarkeit: Wird durch mehrere Kopien der Daten im Speicher und durch mehrere Instanzen gewährleistet, die bei Ausfall einer Aufgabe einspringen. Wenn eine Instanz nicht mehr reagiert oder sich aufhängt, warten fehlende Interrupt-Handler eine bestimmte Zeit, bevor sie auf eine Standby-Instanz umschalten.
Die Aufrechterhaltung der Beständigkeit über mehrere Server in einem geclusterten Data Warehouse erfordert einen verteilten Sperrmanager, der sicherstellt, dass bei einer Datenaktualisierung nur ein Server der Eigentümer des zu ändernden Datenblocks ist und andere Sitzungen, die eine Änderung vornehmen möchten, warten, bis sie an der Reihe sind.
Data-Warehouse-Architektur
Jeder Anbieter von Data-Warehousing-Lösungen differenziert seine Lösungen auf vielfältige Weise, um die Bedürfnisse seiner Kunden kennenlernen und einen Wettbewerbsvorteil zu erhalten. Sie können ein Data Warehouse auf einem Windows- oder Linux-Server vor Ort oder in der Cloud betreiben.
- Vor-Ort-Data-Warehouses: Sie haben den Vorteil, dass Sie keinen Anbieter für die von Ihnen verbrauchten CPU, IO- und Speicherressourcen bezahlen müssen. Der Nachteil von On-Premise-Lösungen ist, dass Sie sie verwalten müssen. Wenn die Kapazität erschöpft ist, müssen Sie einen größeren Server kaufen und in-house IT-Teams einsetzen, um sie zu betreiben und zu optimieren.
- Cloud Data Warehouses: Sie haben Vorteile wie die Flexibilität, nur für das zu zahlen, was Sie nutzen, unendliche Elastizität, um mit Ihren Anforderungen zu wachsen, ohne Hardware im Voraus kaufen zu müssen, und Sie können die IT-Verwaltungsaufgaben dem Cloud überlassen.
Data Warehouses können so konzipiert werden, dass sie auf einem symmetrischen Multiprocessing-System (SMP) mit begrenzter Kapazität oder als massiv parallele Verarbeitung (MPP) auf einem Server-Cluster laufen, um größere parallele Abfragen oder größere Nutzer zu unterstützen.
Der Sekundärspeicher eines Data Warehouse kann einfach aus einer Reihe von Dateien oder physischen Festplatten bestehen. Ein ausgefeilterer Ansatz ist die Verwendung von Virtualisierungssoftware zur Abstraktion des Speichers über die physischen Gerätekapazitäten hinaus. Eine weitere Abstraktion entkoppelt die Beziehung zwischen Servern und Speichergeräten im Bereich der Cloud Data Warehouses. Der Vorteil einer solchen Architektur besteht darin, dass Sie den Speicher unabhängig von den Rechenressourcen skalieren können, um Ihre Serverarchitektur an Ihr Speicherprofil oder Ihre rechenintensive Anwendung anzupassen.
In einigen Fällen nutzen Data Warehouses die Vorteile der Containerisierung und der Microservices in der Cloud , um eine serverlose Rechenarchitektur bereitzustellen, so dass Sie auf der Grundlage der ausgeführten Abfragen und nicht der lizenzierten virtuellen Server abgerechnet werden können.
Ein sehr wichtiger Unterschied zwischen Data-Warehouse-Technologien ist, ob sie zeilen- oder spaltenbasierte Tabellenspeicher verwenden. Spaltenbasierte Ansätze haben deutliche Leistungsvorteile gegenüber zeilenbasierten Speichern, da Ihre Anfrage nur die Spalten berührt, an denen Sie interessiert sind, sie sind selbstindizierend, um die Verwaltungskosten zu senken, und die kleineren Spaltenobjekte können die Vorteile schnellerer On-Prozessor-Caches nutzen. Die Actian Data Platform verwendet eine fortschrittliche spaltenbasierte Architektur in der Cloud und vor Ort.
Wichtigste Erkenntnisse
Im Folgenden werden Überlegungen zur Auswahl Ihres Data Warehouse vorgeschlagen:
- Bietet es eine hohe Datenintegrität?
- Ist es sicher?
- Gibt es eine Möglichkeit, eine hohe Verfügbarkeit zu erreichen?
- Ist die Schnelligkeit anhand von branchenüblichen Benchmarks nachgewiesen?
- Verwendet es Standard-SQL, so dass Sie Ihre Benutzer nicht neu schulen müssen?
- Handelt es sich um eine MPP-Architektur zur Skalierung bei wachsenden Arbeitslasten?
- Läuft es in der Cloud , so dass ich Vorabinvestitionen und Beschaffungskosten vermeiden kann?
- Wird es auf mehreren Cloud funktionieren, so dass ich meine Analyse-Engine dort einsetzen kann, wo meine Daten sind?
- Kann ich dieselbe Data-Warehouse-Software On-Premises für meine regulierten Daten verwenden?
- Werden Data-Warehouse-Daten in einem Spaltenspeicher gespeichert?
- Ist es kosteneffektiv zu verwalten und feinabstimmen?