Vector in Hadoop 5.0 – Neue Funktionen, die Sie interessieren sollten
Actian Vector wurde im Jahr 2026 in Actian Analytics Engine umbenannt.
Heute geben wir die Einführung der nächsten Version von Actian Vector in Hadoop bekannt, mit der wir unsere Unterstützung für Apache Spark den direkten Zugriff auf native Hadoop-Dateiformate sowie eine engere Integration mit Spark SQL- und Spark R-Anwendungen erweitern. In dieser Version haben wir zudem Leistungsverbesserungen, die Integration mit Hadoop-Sicherheitsframeworks sowie Verbesserungen im Verwaltungsbereich integriert. Im Folgenden werde ich auf jeden dieser Punkte näher eingehen.
Native Hadoop-Tabellen mit Vektortabellen kombinieren
In früheren Versionen erforderte Vector in Hadoop, dass Daten in einem proprietären Format gespeichert wurden, das Analytics-Performance optimierte Analytics-Performance eine hohe Komprimierung bot, um die Zugriffsverzögerung zu reduzieren. Vector in Hadoop 5.0 bietet die Möglichkeit, Hadoop-Datendateien (wie Parquet, ORC- und CSV-Dateien) als Tabellen in VectorH zu registrieren und diese externen Tabellen mit nativen Vector-Tabellen zu verknüpfen. Vector in Hadoop bietet die schnellste Analyseausführung für Daten in diesen Formaten, sogar schneller als deren native abfragen . Allerdings wird abfragen mit externen Tabellen niemals so schnell sein wie mit nativen Vector-Daten. Wenn die Leistung entscheidend ist, empfehlen wir Ihnen, diese Daten mit unserem Hochgeschwindigkeits-Loader in Vector in Hadoop zu laden.
Diese Funktion ermöglicht es Kunden, die sich auf ein bestimmtes Dateiformat festgelegt haben und das Kopieren von Daten in ein proprietäres Format vermeiden möchten, dennoch von der Leistungssteigerung zu profitieren, die VectorH bietet. Die Ergebnisse des Speicher-Benchmarks, den wir im Rahmen unserer SIGMOD-Veröffentlichung durchgeführt haben, zeigten, dass das Vector-Dateiformat hinsichtlich der abfragen und der Datenkomprimierung effizienter ist. In unserem Blogbeitrag vom Juli 2016 wird dieser Benchmark näher erläutert.
Echte Hadoop-Sicherheitsintegration für Unternehmen
Eine Forrester-Umfrage aus dem vergangenen Jahr ergab, dass Datensicherheit das Hauptanliegen bei Hadoop-Implementierungen ist. Vector in Hadoop bietet von Haus aus die Sicherheit auf Unternehmensniveau, die man von einer ausgereiften EDW-Plattform erwartet, d. h. diskretionäre Zugriffskontrolle (Kontrolle darüber, wer welche Daten in der Datenbank lesen, schreiben und aktualisieren darf), Data-at-Rest auf Spaltenebene, Daten in Bewegung , Sicherheitsaudits mit SQL-adressierbaren Audit-Protokollen sowie Sicherheitsalarme. Für den Rest des Hadoop-Ökosystems haben diese Bedenken die Entwicklung von Hadoop-Sicherheitsframeworks vorangetrieben, beispielsweise durch Projekte wie Apache Knox und Apache Ranger. Da diese Frameworks zunehmend in Kundenanfragen auftauchen, stellen wir Dokumentation zur Verfügung, wie VectorH für die Integration mit Apache Knox und Apache Ranger konfiguriert werden kann.
Deutliche Leistungssteigerungen
Die Leistungssteigerungen, dank derer Vector 5.0 im TPC-H-3000-GB-Benchmark für nicht-geclusterte Systeme die Spitzenleistung erzielte, sind nun in Vector in Hadoop 5.0 verfügbar, wo wir in der Regel Scalability lineare oder überlineare Scalability beobachten.
Automatische Erstellung eines Histogramms
abfragen stützen sich stark auf die Kenntnis der zugrunde liegenden Daten; ohne Datenstatistiken muss das System Annahmen über Datendistribution treffen, Datendistribution . B. wird angenommen, dass alle Postleitzahlen die gleiche Einwohnerzahl haben oder dass Kundennachnamen ebenso häufig mit einem X wie mit einem M beginnen. VectorH 5.0 enthält eine Implementierung zur automatischen Erstellung von Statistiken/Histogrammen für Vector-Tabellen. Dies führt dazu, dass Histogramme automatisch erstellt und im Speicher zwischengespeichert werden, wenn eine abfragen einen Verweis auf eine Spalte in einer WHERE-, HAVING- oder ON-Klausel abfragen , für die kein Histogramm explizit (durch optimizedb oder CREATE STATISTICS) erstellt wurde.
Schnelleres Hochfahren und Herunterfahren durch verteilte Write-Ahead-Protokolle
In früheren Versionen von Vector in Hadoop wurde die Write-Ahead-Log-Datei, die Details zu Aktualisierungen im System enthält, auf dem VectorH-Leader-Knoten verwaltet. Diese im Arbeitsspeicher befindliche Log-Datei beanspruchte einen Großteil des Speichers des Leader-Knotens und wurde zu einem Engpass beim Systemstart, da die Log-Datei während des Startvorgangs wiedergegeben werden musste und dieser Vorgang mehrere Minuten dauern konnte. In VectorH 5.0 haben wir eine verteilte Write-Ahead-Log-Datei (WAL) implementiert, bei der jeder Knoten über eine lokale WAL verfügt. Dies entlastet den Speicher, verbessert unsere Startzeiten und führt als Nebeneffekt auch zu einer deutlich schnelleren COMMIT-Verarbeitung.
Abfragen mit verteilten Indizes beschleunigen
In früheren Versionen war der VectorH-Leader-Knoten für die Pflege der automatischen Min-Max-Indizes für alle Partitionen zuständig. Zur Erinnerung: Der Min-Max-Index erfasst den Minimal- und Maximalwert, die in einem Datenblock gespeichert sind; dieser interne Index ermöglicht es uns, schnell zu ermitteln, welche Blöcke an der Bearbeitung einer abfragen beteiligt sind abfragen welche nicht gelesen werden müssen. Dieser Index befindet sich im Arbeitsspeicher und wird beim Serverstart erstellt. In VectorH 5.0 ist jeder Knoten für die Pflege seines eigenen Teils des Indexes verantwortlich. Dies entlastet den Speicher des Leader-Knotens, verbessert unsere Startzeiten durch die Verteilung der Arbeit und beschleunigt DML-Abfragen.
Vereinfachte Partitionsverwaltung mit Partitionsspezifikation
Wir haben festgestellt, dass eine Reihe von VectorH-Kunden auf Leistungsprobleme stießen, weil sie nicht wussten, dass sie beim Erstellen von Tabellen die PARTITION-Klausel einfügen müssen, insbesondere bei der Verwendung von CREATE TABLE AS SELECT (CTAS). Nehmen wir also an, sie hatten eine bestehende Tabelle, die auf 15 Partitionen verteilt war, und wollten eine neue Tabelle basierend auf dieser ursprünglichen Tabelle erstellen. Sie gingen davon aus, dass diese ebenfalls 15 Partitionen haben würde, aber das entspricht nicht dem SQL-Standard, und in diesem Fall hat uns die strikte Einhaltung des SQL-Standards geschadet. Um dies zu beheben, haben wir einen Konfigurationsparameter hinzugefügt, der so eingestellt werden kann, dass bei der Erstellung einer Vektortabelle – entweder explizit oder über CTAS – die Verwendung von entweder NOPARTITION oder PARTITION= vorgeschrieben wird.
Vereinfachen Sie Backup -wiederherstellung durch Datenbankklonen
VectorH 5.0 führt ein neues Dienstprogramm namens „clonedb“ ein, mit dem Benutzer eine exakte Kopie ihrer Datenbank in einer separaten Vector-Instanz erstellen können, z. B. um eine Kopie einer Produktionsdatenbank zu Testzwecken in eine Entwicklungsumgebung zu übertragen. Diese Funktion wurde von einem unserer bestehenden Kunden angefragt, wurde jedoch bei allen Vector-/VectorH-Kunden sehr gut angenommen.
Schnellere Exporte mit dem Konnektor Export Konnektor Spark Konnektor
Der Vector Spark Konnektor nun genutzt werden, um große Datenmengen parallel auf alle Knoten zu verteilen.
Vereinfachtes Laden mit SQL-Syntax für vwload
VectorH 5.0 bietet die Möglichkeit, vwload in Verbindung mit der SQL-Anweisung COPY zu nutzen, um Daten schnell und parallel direkt aus SQL heraus zu laden.
Vereinfachte Erstellung von CSV-Exporten aus SQL
VectorH 5.0 bietet die Möglichkeit, Daten aus SQL im CSV-Format unter Verwendung der folgenden Syntax zu exportieren:
INSERT INTO EXTERNAL CSV 'Dateiname' SELECT ... [WITH NULL_MARKER='NULL', FIELD_SEPARATOR=',', Aufzeichnung]
Nächste Schritte
Um mehr zu erfahren, fordern Sie eine Demo oder eine Testversion von VectorH an, die Sie in Ihrem Cluster ausprobieren können. Sie können sich auch die Single-Server-Version von Actian Vector unter Linux ansehen, die als Community Edition kostenlos zum Download bereitgestellt wird.