Vector in Hadoop 5.0 – Neue Funktionen, die Sie interessieren sollten

Actian Vector wurde im Jahr 2026 in Actian Analytics Engine umbenannt.

Heute geben wir die Einführung der nächsten Version von Actian Vector in Hadoop bekannt, mit der wir unsere Unterstützung für Apache Spark den direkten Zugriff auf native Hadoop-Dateiformate sowie eine engere Integration mit Spark SQL- und Spark R-Anwendungen erweitern. In dieser Version haben wir zudem Leistungsverbesserungen, die Integration mit Hadoop-Sicherheitsframeworks sowie Verbesserungen im Verwaltungsbereich integriert. Im Folgenden werde ich auf jeden dieser Punkte näher eingehen.

Native Hadoop-Tabellen mit Vektortabellen kombinieren

In previous releases, Vector in Hadoop required data to be stored in a proprietary format which optimized analytics performance and delivered great compression to reduce access latency. Vector in Hadoop 5.0 provides the ability to register Hadoop data files (such as Parquet, ORC, and CSV files) as tables in VectorH and to join these external tables with native Vector tables. Vector in Hadoop will provide the fastest analytics execution against data in these formats, even faster than their native query engines. However, query execution will never be as fast with external tables as with native Vector data. If performance matters, we suggest that you load that data into Vector in Hadoop using our high-speed loader.

This feature enables customers who have standardized on a particular file format and who want to avoid copying data into a proprietary format to still get the performance acceleration VectorH offers. The details of the storage benchmark that we conducted as part of our SIGMOD paper showed the Vector file format to be more efficient from a query performance/data read and data compression perspective. See our blog post, which further explains that benchmark.

Echte Hadoop-Sicherheitsintegration für Unternehmen

A Forrester survey last year indicated that data security is the number one concern with Hadoop deployments. Vector in Hadoop provides the enterprise-grade security natively that one expects in a mature EDW platform, i.e., discretionary access control (control over who can read, write, and update what data in the database), column-level data at rest encryption, data in motion encryption, security auditing with SQL addressable audit logs, and security alarms. For the rest of the Hadoop ecosystem, these concerns have driven the development of Hadoop Security Frameworks, through projects like Apache Knox and Apache Ranger. As we see these frameworks starting to appear on customer RFIs, we’re provided documentation on how to configure VectorH for integration with Apache Knox and Apache Ranger.

Deutliche Leistungssteigerungen

Die Leistungssteigerungen, dank derer Vector 5.0 im TPC-H-3000-GB-Benchmark für nicht-geclusterte Systeme die Spitzenleistung erzielte, sind nun in Vector in Hadoop 5.0 verfügbar, wo wir in der Regel Scalability lineare oder überlineare Scalability beobachten.

Automatische Erstellung eines Histogramms

abfragen stützen sich stark auf die Kenntnis der zugrunde liegenden Daten; ohne Datenstatistiken muss das System Annahmen über Datendistribution treffen, Datendistribution . B. wird angenommen, dass alle Postleitzahlen die gleiche Einwohnerzahl haben oder dass Kundennachnamen ebenso häufig mit einem X wie mit einem M beginnen. VectorH 5.0 enthält eine Implementierung zur automatischen Erstellung von Statistiken/Histogrammen für Vector-Tabellen. Dies führt dazu, dass Histogramme automatisch erstellt und im Speicher zwischengespeichert werden, wenn eine abfragen einen Verweis auf eine Spalte in einer WHERE-, HAVING- oder ON-Klausel abfragen , für die kein Histogramm explizit (durch optimizedb oder CREATE STATISTICS) erstellt wurde.

Schnelleres Hochfahren und Herunterfahren durch verteilte Write-Ahead-Protokolle

In früheren Versionen von Vector in Hadoop wurde die Write-Ahead-Log-Datei, die Details zu Aktualisierungen im System enthält, auf dem VectorH-Leader-Knoten verwaltet. Diese im Arbeitsspeicher befindliche Log-Datei beanspruchte einen Großteil des Speichers des Leader-Knotens und wurde zu einem Engpass beim Systemstart, da die Log-Datei während des Startvorgangs wiedergegeben werden musste und dieser Vorgang mehrere Minuten dauern konnte. In VectorH 5.0 haben wir eine verteilte Write-Ahead-Log-Datei (WAL) implementiert, bei der jeder Knoten über eine lokale WAL verfügt. Dies entlastet den Speicher, verbessert unsere Startzeiten und führt als Nebeneffekt auch zu einer deutlich schnelleren COMMIT-Verarbeitung.

Abfragen mit verteilten Indizes beschleunigen

In früheren Versionen war der VectorH-Leader-Knoten für die Pflege der automatischen Min-Max-Indizes für alle Partitionen zuständig. Zur Erinnerung: Der Min-Max-Index erfasst den Minimal- und Maximalwert, die in einem Datenblock gespeichert sind; dieser interne Index ermöglicht es uns, schnell zu ermitteln, welche Blöcke an der Bearbeitung einer abfragen beteiligt sind abfragen welche nicht gelesen werden müssen. Dieser Index befindet sich im Arbeitsspeicher und wird beim Serverstart erstellt. In VectorH 5.0 ist jeder Knoten für die Pflege seines eigenen Teils des Indexes verantwortlich. Dies entlastet den Speicher des Leader-Knotens, verbessert unsere Startzeiten durch die Verteilung der Arbeit und beschleunigt DML-Abfragen.

Vereinfachte Partitionsverwaltung mit Partitionsspezifikation

Wir haben festgestellt, dass eine Reihe von VectorH-Kunden auf Leistungsprobleme stießen, weil sie nicht wussten, dass sie beim Erstellen von Tabellen die PARTITION-Klausel einfügen müssen, insbesondere bei der Verwendung von CREATE TABLE AS SELECT (CTAS). Nehmen wir also an, sie hatten eine bestehende Tabelle, die auf 15 Partitionen verteilt war, und wollten eine neue Tabelle basierend auf dieser ursprünglichen Tabelle erstellen. Sie gingen davon aus, dass diese ebenfalls 15 Partitionen haben würde, aber das entspricht nicht dem SQL-Standard, und in diesem Fall hat uns die strikte Einhaltung des SQL-Standards geschadet. Um dies zu beheben, haben wir einen Konfigurationsparameter hinzugefügt, der so eingestellt werden kann, dass bei der Erstellung einer Vektortabelle – entweder explizit oder über CTAS – die Verwendung von entweder NOPARTITION oder PARTITION= vorgeschrieben wird.

Vereinfachen Sie Backup -wiederherstellung durch Datenbankklonen

VectorH 5.0 führt ein neues Dienstprogramm namens „clonedb“ ein, mit dem Benutzer eine exakte Kopie ihrer Datenbank in einer separaten Vector-Instanz erstellen können, z. B. um eine Kopie einer Produktionsdatenbank zu Testzwecken in eine Entwicklungsumgebung zu übertragen. Diese Funktion wurde von einem unserer bestehenden Kunden angefragt, wurde jedoch bei allen Vector-/VectorH-Kunden sehr gut angenommen.

Schnellere Exporte mit dem Konnektor Export Konnektor Spark Konnektor

Der Vector Spark Konnektor nun genutzt werden, um große Datenmengen parallel auf alle Knoten zu verteilen.

Vereinfachtes Laden mit SQL-Syntax für vwload

VectorH 5.0 bietet die Möglichkeit, vwload in Verbindung mit der SQL-Anweisung COPY zu nutzen, um Daten schnell und parallel direkt aus SQL heraus zu laden.

Vereinfachte Erstellung von CSV-Exporten aus SQL

VectorH 5.0 bietet die Möglichkeit, Daten aus SQL im CSV-Format unter Verwendung der folgenden Syntax zu exportieren:

INSERT INTO EXTERNAL CSV 'Dateiname' SELECT ... [WITH NULL_MARKER='NULL', FIELD_SEPARATOR=',', Aufzeichnung]

Nächste Schritte

Um mehr zu erfahren, fordern Sie eine Demo oder eine Testversion von VectorH an, die Sie in Ihrem Cluster ausprobieren können. Sie können sich auch die Single-Server-Version von Actian Vector unter Linux ansehen, die als Community Edition kostenlos zum Download bereitgestellt wird.

Über den Autor

Über Emma McGrattan

Emma McGrattan ist CTO bei Actian und leitet die weltweite Forschung und Entwicklung in High-Performance , Datenmanagement und Integration. Emma ist seit über zwei Jahrzehnten bei Actian tätig, hält mehrere Patente im Bereich Datentechnologien und hat maßgeblich zur Innovation bei geschäftskritischen Anwendungen beigetragen. Sie ist eine anerkannte Expertin, die regelmäßig auf Branchenkonferenzen wie Strata Data referiert, und hat Fachartikel zu modernen Analysemethoden veröffentlicht. In ihren Blogbeiträgen bei Actian befasst sich Emma mit Leistungsoptimierung, Cloud und Advanced Analytics . Entdecken Sie ihre besten Artikel, um data-driven zu erzielen.

Actian Data Intelligence-Plattform Neu

Kernfunktionen

AI Analyst New

Explore AI Analyst

Actian Data Observability Neu

Kernfunktionen

Jaspersoft New

Datenbanken

Produkte

Analytics AI Platform

Kernfunktionen

Datenintegration

Produkte

Produktübersicht

Alle Produkte

Vector in Hadoop 5.0 – Neue Funktionen, die Sie interessieren sollten

Native Hadoop-Tabellen mit Vektortabellen kombinieren

Echte Hadoop-Sicherheitsintegration für Unternehmen

Deutliche Leistungssteigerungen

Automatische Erstellung eines Histogramms

Schnelleres Hochfahren und Herunterfahren durch verteilte Write-Ahead-Protokolle

Abfragen mit verteilten Indizes beschleunigen

Vereinfachte Partitionsverwaltung mit Partitionsspezifikation

Vereinfachen Sie Backup -wiederherstellung durch Datenbankklonen

Schnellere Exporte mit dem Konnektor Export Konnektor Spark Konnektor

Vereinfachtes Laden mit SQL-Syntax für vwload

Vereinfachte Erstellung von CSV-Exporten aus SQL

Nächste Schritte

Vector in Hadoop 5.0 – Neue Funktionen, die Sie interessieren sollten

Native Hadoop-Tabellen mit Vektortabellen kombinieren

Echte Hadoop-Sicherheitsintegration für Unternehmen

Deutliche Leistungssteigerungen

Automatische Erstellung eines Histogramms

Schnelleres Hochfahren und Herunterfahren durch verteilte Write-Ahead-Protokolle

Abfragen mit verteilten Indizes beschleunigen

Vereinfachte Partitionsverwaltung mit Partitionsspezifikation

Vereinfachen Sie Backup -wiederherstellung durch Datenbankklonen

Schnellere Exporte mit dem Konnektor Export Konnektor Spark Konnektor

Vereinfachtes Laden mit SQL-Syntax für vwload

Vereinfachte Erstellung von CSV-Exporten aus SQL

Nächste Schritte

Bleiben Sie in Verbindung

Datenanalysen direkt bei Ihnen.