Actian Vector wurde im Jahr 2026 in Actian Analytics Engine umbenannt.

Haben Sie schon einmal versucht, Ihre Fakten- und Dimensionstabellen zusammenzuführen, um operative Analysen zu erstellen? Wenn Sie umfangreiche Datenanalysen zu Themen wie Kundenabwanderung durchführen möchten, werden Sie dies wahrscheinlich tun müssen. Das Problem ist, dass diese Tabellen sehr groß sind, und wenn man sie zusammenführt, ist die daraus resultierende materialisierte Datentabelle riesig (nämlich exponentiell größer als die Quelltabellen) und läuft wahrscheinlich in eine Zeitüberschreitung, bevor sie überhaupt fertiggestellt ist. Wenn es Ihnen gelingt, die Daten vorab zusammenzuführen, sind die resultierenden Daten wahrscheinlich veraltet (sorry). Das liegt daran, dass sich die Quelldaten ständig ändern und die resultierenden Daten so groß sind, dass die Abfragen, die Sie darauf ausführen wollen, ebenfalls keine gute Leistung erbringen werden. Es muss doch einen besseren Weg geben!

Vektordatenbanken vs. herkömmliche Datenbanken – Spaltenorientierung

Vector for Hadoop wurde entwickelt, um dieses Problem zu lösen, indem es Ihnen ermöglicht, den Zwischenschritt des Vorab-Joins von Daten in einer materialisierten Datentabelle zu umgehen und stattdessen High-Performance “-Joins durchzuführen. Die Vector-Datenbank beginnt damit, Ihre Daten in Vektoren umzuwandeln, in denen SIMD single instruction multiple data) durchgeführt werden können. Im Wesentlichen richtet Vector Ihre Daten so aus, dass der Fokus auf den Beziehungen zwischen Attributen (über mehrere Datensätze hinweg) liegt, anstatt sich auf die Attribute eines einzelnen Aufzeichnung zu konzentrieren. Dies ist aus mehreren Gründen wichtig.

Die meisten geschäftlichen Fragestellungen, die Sie mit Analysen zu lösen versuchen, beziehen sich auf aggregierte Daten (durchschnittlicher Transaktionswert, Anzahl der Verkäufe in einem Zeitraum usw.). Sie versuchen, einen Prozess ganzheitlich zu verstehen, anstatt einzelne Transaktionen nachzuverfolgen. Dieser geschäftliche Zweck ist wichtig, da er die Grundlage dafür bildet, warum Sie Analysen auf Basis eines Data Warehouse statt Ihrer Transaktionssysteme durchführen müssen. Transaktionssysteme sind für die Verarbeitung einzelner Transaktionen optimiert (daher der Name). Data Warehouses sind für die Analyse von Datenbatches optimiert. Beide Systeme sind in der Lage, die Aufgaben des jeweils anderen zu übernehmen, aber wenn Sie operative Analysen durchführen möchten, sollten Sie ein Data Warehouse verwenden – idealerweise eines mit spaltenorientierter Struktur.

Leistung entsteht durch Spezialisierung

Datenbanken und Analysesysteme führen lediglich eine Reihe mathematischer Operationen an Ihren Daten durch – sie vergleichen Zeichenfolgen, Ganzzahlen usw. Je nach Datentyp können unterschiedliche Operationen durchgeführt werden. Auf verschiedene Datentypen können unterschiedliche Operationen angewendet werden. Beispielsweise können Sie bei Zahlen Additions-, Subtraktions-, Größer-als-, Kleiner-als-, Min- und Max-Operationen durchführen, während Sie bei Zeichenfolgen eigentlich nur Zeichenvergleiche vornehmen können (gleich, enthält, beginnt mit usw.). Computer sind darauf ausgelegt, mathematische Operationen mit Zahlen durchzuführen, daher werden diese Arten von Transaktionen schneller ausgeführt.

Das Problem bei herkömmlichen zeilenbasierten Datenbanken besteht darin, dass die mit einem Aufzeichnung verknüpften Attribute wahrscheinlich unterschiedliche Datentypen aufweisen. Um diese Daten zu analysieren, muss das System im Grunde auf den „kleinsten gemeinsamen Nenner“ zurückgreifen, was in den meisten Fällen den Vergleich von Zeichenfolgen bedeutet. Durch die Umwandlung der Daten in Spalten ermöglicht Actian Vector die Durchführung (schnellerer) numerischer Operationen, sofern die Daten dies zulassen, und beschleunigt so abfragen .

Sie müssen nicht warten, bis Ihre Daten aktualisiert sind

Der traditionelle Ansatz, Daten vorab zu verknüpfen, um Analysen zu ermöglichen, funktioniert gut, wenn es sich um historische Daten handelt, die im Wesentlichen statisch sind. Wenn das Verknüpfen der Daten einige Stunden dauert, ist das kein großes Problem. Problematisch wird es jedoch, wenn sich die Quelldaten ständig ändern und die Analyseergebnisse, die Sie gewinnen möchten, für Entscheidungsfindung in Echtzeit genutzt werden. Immer mehr Unternehmen möchten ihre Hadoop-Data-Lakes operationalisieren und die darin enthaltenen Daten nutzen, um Betriebs-Dashboards und Fähigkeiten zu betreiben, Fähigkeiten kaum Toleranz für Datenlatenz aufweisen. Ein großer Nutzen Actian Vector-Lösung besteht darin, dass sie die Notwendigkeit der Voraggregation und Vorverarbeitung von Daten in materialisierten Datentabellen umgeht und stattdessen On-Demand-Verbindungen der Quelldatentabellen durchführt. Genau das ist es, was die operative Analytik erfordert.