Actian Vector für Hadoop Dateiformat ist schneller und effizienter
Actian Germany GmbH
5. Juni 2020

In diesem dritten und letzten Teil der Serie über Actian Vector in Hadoop (VectorH) behandeln wir, wie das VectorH-Dateiformat die Leistung und Effizienz unserer Analyseplattform unterstützt, um Geschäftseinblicke zu beschleunigen, sowie einige der anderen Unternehmensfunktionen, die Unternehmen dabei helfen können, ihre Hadoop-Anwendungen in die Produktion zu bringen. Im ersten Teil dieser Serie wurden die enormen Leistungsvorteile von VectorH gegenüber anderen SQL-auf-Hadoop-Alternativen aufgezeigt, während im zweiten Teil die Vorteile der reichhaltigeren SQL-Implementierung und die Möglichkeit, Datenaktualisierungen in VectorH durchzuführen, untersucht wurden.
Das Dateiformat für VectorH ist einer der Hauptgründe für seine branchenführende Leistung. Durch die spaltenweise Ausrichtung kann VectorH Komprimierungstechniken wählen, die für den jeweiligen Datentyp optimiert sind, und VectorH kann verschiedene im SIGMOD-Papier beschriebene Maßnahmen nutzen, um Speicherplatz und I/O-Bandbreite effizienter zu nutzen. In einigen einfachen Benchmarks, die in diesem Papier beschrieben werden, haben wir VectorH mit der Geschwindigkeit und Effizienz anderer Anfrage (wie Impala und Presto) und anderer Dateiformate (wie Parquet und ORC) verglichen. Drei Beobachtungen werden aus den Benchmark-Ergebnissen deutlich:
VectorH bearbeitet Abfragen viel schneller als die anderen Alternativen, wenn sich die Daten bereits im Speicher befinden, von 26x bis über 110x schneller, hauptsächlich aufgrund der Effizienz der Dekomprimierung mit vektorisierter Verarbeitung. Das nachstehende Diagramm zeigt die Anfrage für jede der Alternativen und zeigt, wie sie je nach dem Prozentsatz der aus dem gesamten Tabellensatz ausgewählten Daten variieren. VectorH und Presto vermeiden die Verarbeitung von Daten, die nicht im ausgewählten Bereich liegen, während Impala dies nicht tut und in den Fällen von 10 % und 30 % deutlich schlechter abschneidet.
- VectorH ist auch deutlich schneller, wenn die Daten noch nicht in den Speicher geladen wurden. VectorH reduziert die Menge der E/A, die für Daten auf der Festplatte erforderlich ist, durch E/A-Filterung, wobei MinMax-Indizes im Speicher das Überspringen von Lesevorgängen für Blöcke auf der Festplatte ermöglichen, die sich nicht im ausgewählten Bereich befinden. Das unten gezeigte Diagramm (ähnlich wie oben) spiegelt den Prozentsatz der Daten im ausgewählten Bereich wider, und nur VectorH zeigt signifikante Einsparungen bei den Lesevorgängen, da weniger Daten den Auswahlkriterien entsprechen. Obwohl einige andere Formate auch über Bereichsinformationen verfügen, werden diese als Metadaten innerhalb der Datenblöcke gespeichert. Jeder Block muss immer noch zumindest teilweise gelesen werden, bevor entschieden wird, ob die Daten relevant sind. VectorH führte im Vergleich zu Impala und Presto deutlich weniger E/A aus, nämlich zwischen 20 % und 98 %.
- VectorH hat die effektivste Komprimierung für eine Vielzahl von Datentypen und benötigt nur 11 GB Speicherplatz im Vergleich zu 18 GB für Parquet und 19 GB für ORC, was einer Einsparung von 39-42 % entspricht. Stellen Sie sich die Einsparungen gegenüber einem Datenspeicher von mehreren Petabyte vor!
Zusätzliche Vorteile für VectorH, die zum erfolgreichen Einsatz von Analyselösungen beitragen:
- Die Integration von Spark ist ein Beispiel für Actians kontinuierliches Engagement, offene Schnittstellen und Frameworks direkt in die VectorH-Lösung zu integrieren.
- Actian VectorH 6.0 integriert sich in die neuesten Hadoop-Distributionen und kann sowohl On-Premises als auch in der Cloud , z.B. Microsoft Azure HDInsight, eingesetzt werden.
- Actian VectorH 6.0 unterstützt mehrere Dateisysteme sowie multiple data Parquet, ORC, CSV und viele andere über den Spark Konnektor).
- Benutzer können Abfragen in VectorH auf Daten ausführen, die in beliebigen von Spark unterstützten Dateiformaten gespeichert sind, indem sie den Konnektor nutzen. Dies ist für den Nutzer völlig transparent: Vollständiges ANSI-SQL kann verwendet werden, um Daten in jedem Dateiformat Anfrage , ohne dass er überhaupt von der Existenz von Spark weiß.
- Mit dem Konnektor können die in VectorH gespeicherten Daten in Spark durch die Verwendung von Dataframes oder Spark SQL verarbeitet werden. Jede Spark-Operation kann mit Daten durchgeführt werden, die in einer VectorH-Tabelle gespeichert sind.
- Insgesamt bietet Actian eine umfassendere Funktionalität auf Unternehmensniveau, um die Übertragung von Analyseanwendungen von der Entwicklung in eine Produktionsumgebung zu unterstützen.
- Die in VectorH integrierte rollen- und zeilenbasierte Sicherheit bietet die erforderliche Zugriffskontrolle, um Datenschutzrichtlinien und gesetzliche Anforderungen zu erfüllen.
- Actian Director ist ein webbasiertes Tool zur Überwachung und Verwaltung von VectorH- und Cluster .
- Die Actian Management Console automatisiert die Bereitstellung, den Einsatz und die Überwachung von Analysen in der Cloud, so dass Sie Ihr neues Projekt schneller und einfacher in Angriff nehmen können.
Diese dreiteilige Blogserie (siehe Teil eins und zwei) zeigt, wie Actian seinen Kunden die Leistung, die Flexibilität und den Support bietet, den sie bei der Integration mit anderen big data benötigen, um schnellere und umfassendere Erkenntnisse für bessere Geschäftsentscheidungen zu gewinnen.
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden - Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.