Einblicke

Vector in Hadoop 5.0 - Neue Funktionen, die Sie beachten sollten

Emma McGrattan

September 19, 2017

Heute kündigen wir die Einführung der nächsten Version von Actian Vector in Hadoop an, die unsere Unterstützung von Apache Spark um den direkten Zugriff auf native Hadoop-Dateiformate und eine engere Integration mit Spark SQL- und Spark R-Anwendungen erweitert. In dieser Version sind auch Leistungsverbesserungen, Integration mit Hadoop-Sicherheits-Frameworks und administrative Verbesserungen enthalten. Im Folgenden werde ich auf jeden dieser Punkte näher eingehen.

Kombinieren nativer Hadoop-Tabellen mit Vektortabellen

In früheren Versionen von Vector in Hadoop mussten die Daten in einem proprietären Format gespeichert werden, das die Analytics-Performance optimierte und eine hohe Komprimierung zur Reduzierung der Zugriffslatenz bot. Vector in Hadoop 5.0 bietet die Möglichkeit, Hadoop-Datendateien (wie Parquet, ORC- und CSV-Dateien) als Tabellen in VectorH zu registrieren und diese externen Tabellen mit nativen Vector-Tabellen zu verbinden. Vector in Hadoop bietet die schnellste Ausführung von Analysen für Daten in diesen Formaten, sogar schneller als ihre nativen Anfrage . Allerdings wird die Ausführung von Anfrage mit externen Tabellen nie so schnell sein wie mit nativen Vector-Daten. Wenn es auf die Leistung ankommt, empfehlen wir Ihnen, diese Daten mit unserem Hochgeschwindigkeitslader in Vector in Hadoop zu laden.

Diese Funktion ermöglicht es Kunden, die auf ein bestimmtes Dateiformat standardisiert haben und das Kopieren von Daten in ein proprietäres Format vermeiden wollen, dennoch die Leistungssteigerung zu nutzen, die VectorH bietet. Die Details des Speicher-Benchmarks, den wir im Rahmen unseres SIGMOD-Papiers durchgeführt haben, haben gezeigt, dass das Vector-Dateiformat aus Sicht der Anfrage und Datenkompression effizienter ist. Siehe unseren Blogbeitrag vom Juli 2016, in dem dieser Benchmark näher erläutert wird.

Echte Enterprise-Hadoop-Sicherheitsintegration

Eine Forrester-Umfrage aus dem letzten Jahr hat ergeben, dass die Datensicherheit die größte Sorge bei Hadoop-Einsätzen ist. Vector in Hadoop bietet von Haus aus die Sicherheit auf Unternehmensniveau, die man von einer ausgereiften EDW-Plattform erwartet, d. h. diskretionäre Zugriffskontrolle (Kontrolle darüber, wer welche Daten in der Datenbank lesen, schreiben und aktualisieren darf), Data-at-Rest auf Spaltenebene, Verschlüsselung von Daten in Bewegung , Sicherheitsaudits mit SQL-adressierbaren Audit-Logs und Sicherheitsalarme. Für den Rest des Hadoop-Ökosystems haben diese Bedenken die Entwicklung von Hadoop-Sicherheits-Frameworks durch Projekte wie Apache Knox und Apache Ranger vorangetrieben. Da wir sehen, dass diese Frameworks allmählich in Kundenanfragen auftauchen, erhalten wir eine Dokumentation, wie VectorH für die Integration mit Apache Knox und Apache Ranger konfiguriert werden kann.

Signifikante Leistungsverbesserungen

Die Leistungsverbesserungen, die dazu geführt haben, dass Vector 5.0 im TPC-H 3000GB-Benchmark für nicht geclusterte Systeme eine Spitzenleistung erzielt hat, sind nun auch in Vector in Hadoop 5.0 verfügbar, wo wir in der Regel eine lineare oder besser als lineare Scalability sehen.

Automatische Histogrammerzeugung

Die Ausführungspläne von Anfrage sind in hohem Maße von der Kenntnis der zugrunde liegenden Daten abhängig; ohne Datenstatistiken müssen Annahmen über die Datendistribution getroffen werden, z. B. die Annahme, dass alle Postleitzahlen die gleiche Anzahl von Einwohnern haben oder dass die Nachnamen von Kunden mit gleicher Wahrscheinlichkeit mit einem X wie mit einem M beginnen. VectorH 5.0 enthält eine Implementierung der automatischen Statistik-/Histogrammerzeugung für Vektortabellen. Sie führt dazu, dass Histogramme automatisch erstellt und im Speicher zwischengespeichert werden, wenn eine Anfrage einen Verweis auf eine Spalte in einer WHERE-, HAVING- oder ON-Klausel ohne explizit erstelltes (durch optimizedb oder CREATE STATISTICS) Histogramm enthält.

Beschleunigtes Starten und Herunterfahren mit verteiltem Write-Ahead-Protokoll

In früheren Versionen von Vector in Hadoop wurde die vorausschauende Protokolldatei, die Details über Aktualisierungen im System enthält, auf dem VectorH-Leader-Node verwaltet. Diese speicherresidente Protokolldatei verbrauchte einen großen Teil des Speichers des Leader Node und wurde zu einem Flaschenhals beim Start, da die Protokolldatei während des Starts wiedergegeben werden musste und dieser Prozess mehrere Minuten dauern konnte. In VectorH 5.0 haben wir eine verteilte Write Ahead Log (WAL)-Datei implementiert, bei der jeder Knoten über eine lokale WAL verfügt. Dies entlastet den Speicher, verbessert unsere Startzeiten und führt als Nebeneffekt auch zu einer viel schnelleren COMMIT-Verarbeitung.

Beschleunigung von Abfragen mit verteilten Indizes

In früheren Versionen war der VectorH-Leader-Knoten für die Pflege der automatischen Min-Max-Indizes für alle Partitionen verantwortlich. Zur Erinnerung: Der Min-Max-Index verfolgt den minimalen und maximalen Wert, der in einem Datenblock gespeichert ist; dieser interne Index ermöglicht es uns, schnell zu erkennen, welche Blöcke an der Lösung einer Anfrage beteiligt sind und welche nicht gelesen werden müssen. Dieser Index ist speicherresident und wird beim Starten des Servers erstellt. In VectorH 5.0 ist jeder Knoten für die Pflege seines eigenen Teils des Index verantwortlich, was den Druck auf den Speicher des führenden Knotens mindert, unsere Startzeiten durch Verteilung der Arbeit verbessert und DML-Abfragen beschleunigt.

Vereinfachte Partitionsverwaltung mit Partitionsspezifikation

Wir haben festgestellt, dass eine Reihe von VectorH-Kunden Leistungsprobleme hatten, weil sie nicht wussten, dass sie bei der Erstellung von Tabellen die PARTITION-Klausel einbeziehen müssen, insbesondere wenn sie CREATE TABLE AS SELECT (CTAS) verwenden. Angenommen, sie hatten eine bestehende Tabelle, die auf 15 Partitionen verteilt war, und wollten eine neue Tabelle auf der Grundlage dieser ursprünglichen Tabelle erstellen, so nahmen sie an, dass auch diese 15 Partitionen haben würde. Um dieses Problem zu lösen, haben wir einen Konfigurationsparameter hinzugefügt, der die Verwendung von entweder NOPARTITION oder PARTITION= beim expliziten oder über CTAS erfolgenden Erstellen einer Vektortabelle vorschreibt.

Vereinfachen Sie Backup und Wiederherstellung mit Datenbankklonen

VectorH 5.0 führt ein neues Dienstprogramm ein, clonedb, das es den Benutzern ermöglicht, eine exakte Kopie ihrer Datenbank in einer separaten Vector-Instanz zu erstellen, z.B. um eine Kopie einer Produktionsdatenbank zu Testzwecken in eine Entwicklungsumgebung zu bringen. Diese Funktion wurde von einem unserer bestehenden Kunden angefordert, wurde aber von allen Vector/VectorH-Kunden sehr gut angenommen.

Schneller exportieren mit Spark Konnektor Parallel Unload

Der Vector Spark Konnektor kann nun dazu verwendet werden, große Datenmengen parallel über alle Knoten zu entladen.

Vereinfachtes Laden mit SQL-Syntax für vwload

VectorH 5.0 bietet die Möglichkeit, vwload mit der SQL COPY-Anweisung für schnelles paralleles Datenladen aus SQL heraus zu nutzen.

Vereinfachte Erstellung von CSV-Exporten aus SQL

VectorH 5.0 bietet die Möglichkeit, Daten im CSV-Format aus SQL mit der folgenden Syntax zu exportieren:

INSERT INTO EXTERNAL CSV 'filename' SELECT ... [WITH NULL_MARKER='NULL', FIELD_SEPARATOR=',', Aufzeichnung'n']

Nächste Schritte

Um mehr zu erfahren, fordern Sie eine Demo oder eine Testversion von VectorH an, die Sie in Ihrem Cluster ausprobieren können. Sie können auch die Single-Server-Version von Actian Vector unter Linux erkunden, die als Community-Edition kostenlos zum Download bereitsteht.

Über Emma McGrattan

Emma McGrattan ist CTO bei Actian und leitet die weltweite Forschung und Entwicklung in den Bereichen High-Performance , Datenmanagement und Integration. Mit mehr als zwei Jahrzehnten bei Actian hält Emma McGrattan mehrere Patente im Bereich Datentechnologien und war maßgeblich an der Entwicklung von Innovationen für unternehmenskritische Anwendungen beteiligt. Sie ist eine anerkannte Autorität, spricht häufig auf Branchenkonferenzen wie der Strata Data und hat Fachartikel über moderne Analytik veröffentlicht. In ihren Blogbeiträgen bei Actian befasst sich Emma mit Leistungsoptimierung, hybriden Cloud und Advanced Analytics . Lesen Sie ihre wichtigsten Artikel, um data-driven Erfolg zu erreichen.

Actian Data Intelligence Platform Neu

Zentrale Funktionen

Actian Data Observability Neu

Zentrale Funktionen

Actian Data Platform

Zentrale Funktionen

Integration von Daten

Produkte

Datenbanken

Produkte

Produktübersicht

Alle Produkte

Vector in Hadoop 5.0 - Neue Funktionen, die Sie beachten sollten

Kombinieren nativer Hadoop-Tabellen mit Vektortabellen