Pssst ... Haben Sie schon von VectorH gehört?
Actian Germany GmbH
Mai 4, 2016

Wir haben fleißig einige innovative Funktionen in das Actian Vector in Hadoop (VectorH) Produkt eingebaut und wir würden Ihnen gerne alles darüber erzählen.
Also, die Liste der Funktionen und Innovationen, die wir kürzlich für VectorH gemacht haben... Moment ... wissen Sie überhaupt, worum es bei VectorH geht? Ja, es ist ein tolles CamelCase-Beispiel, aber dafür brauchten wir keinen Blogbeitrag.
In diesem Beitrag möchte ich mich darauf konzentrieren, was VectorH wirklich ist und welche Art von Problemen es lösen soll. Wir werden die neuen Funktionen in einem späteren Beitrag behandeln.
Was ist VectorH?
VectorH ist unser spaltenbasiertes, High-Performance, ACID-konformes, ANSI SQL 2003-konformes, verteiltes RDBMS , das nativ in einem Apache Hadoop Cluster läuft. Es nutzt HDFS oder MapR-FS für die Speicherung und Hadoop YARN für das Ressourcenmanagement. VectorH hat seine Wurzeln in der TPC-H Aufzeichnung Vectorwise Datenbank, die Pionierarbeit in der vektorisierten Verarbeitung geleistet hat.
Das Herzstück von Vectorwise (und VectorH) ist die x100-Ausführungsmaschine, die aus der Forschung am CWI (dem nationalen niederländischen Forschungsinstitut für Mathematik und Informatik) hervorgegangen ist.
Wie unterscheidet sich VectorH?
Die "geheime Soße", die VectorH einzigartig macht, ist seine ausgereifte, produktionsreife Implementierung der Vektorverarbeitung und der Positions-Delta-Bäume (die es ermöglicht, sehr effiziente transaktionale Echtzeit-Aktualisierungen durchzuführen, ohne die Anfrage zu beeinträchtigen).
Aktualisierungen? Ja, das ist richtig - wir können Updates über HDFS durchführen, obwohl es ein reines Append-Dateisystem ist. Die Industrie fängt gerade erst an, einige Systeme zu sehen, die Funktionen auf Hadoop anbieten, aber VectorH unterstützt dies schon seit einer Weile und ist seit seiner Konzeption sehr gereift.
VectorH enthält eine Reihe weiterer Innovationen wie leichtgewichtige Komprimierungsmethoden, Multi-Core , intelligente HDFS-Blockplatzierung, vorausschauende Pufferverwaltung usw.
Diese Innovationen führen zu einer Aufzeichnung Leistung und die Leistungsmerkmale von VectorH verdienen einen eigenen Beitrag. Leistung ist ein sehr wichtiger Faktor, wenn es um die Verarbeitung großer Datenmengen geht, sollte aber nicht der einzige Faktor bei der Auswahl der richtigen Lösung für Ihre Implementierung sein.
Sollte ich VectorH verwenden?
Unsere VectorH-Kunden haben VectorH für die folgenden Anwendungsfälle nutzen können:
- Verringerung der Kosten/Komplexität: Einige unserer Kunden hatten separate Hadoop-Cluster und separate dedizierte Cluster für Data Warehousing. Die Daten wurden vom Cluster in einen dedizierten Cluster übertragen und dann für die analytische Verarbeitung verwendet oder BI-Tools zur Verfügung gestellt. Die Data-Warehouse-Cluster waren teuer in der Wartung und konnten nicht skaliert werden, um die zunehmende Datenmenge/Komplexität zu bewältigen. Durch die Umstellung auf VectorH innerhalb der bestehenden Hadoop-Cluster konnten sie dieselbe SQL-Funktionalität nutzen, schnellere Antwortzeiten erzielen und ihre Business Intelligence bedienen, ohne ihre Abfragen neu schreiben zu müssen. Außerdem entfiel die separate, teure Data Warehousing-Hardware/Software.
- Handhabung von Unternehmens-Workloads: Es gibt eine Vielzahl von SQL-Engines für Hadoop, und obwohl sie innovativ sind, stellten unsere Kunden fest, dass a) es entweder an SQL-Reife fehlte, so dass Tausende der vorhandenen Abfragen nicht funktionierten und neu geschrieben werden mussten, oder b) es Stabilitätsprobleme gab, bei denen sie nicht skalieren konnten, um ihre Produktions-Workloads mit einer großen Anzahl gleichzeitiger Abfragen zu bewältigen. VectorH hat bewiesen, dass es Verwaltbarkeit, scalability und Integrität auf Unternehmensniveau bietet.
- Einhaltung von SLA: Ein bestimmtes Segment unserer Kunden im Finanzsektor hat sehr strenge Anforderungen, bei denen bestimmte Aufgaben zeitnah abgeschlossen werden müssen, um geschäftskritische Berichte und Erkenntnisse zu generieren. Dies erforderte eine schnellere Leistung des zugrunde liegenden Systems sowie die Möglichkeit, eine Teilmenge der Datenpunkte (Anpassungen) zu ändern, ohne die gesamte Aufgabe erneut ausführen zu müssen. Die Positionsdeltabäume in VectorH konnten diese inkrementellen Aktualisierungen sehr gut verarbeiten, ohne die Anfrage zu beeinträchtigen.
Wenn Ihr Datenvolumen größer als 5 TB ist oder Sie mit einem der 3 oben genannten Probleme konfrontiert sind, sollten Sie Actian VectorH in Betracht ziehen, um die Skalierbarkeit und Leistung zu erhalten, die Ihren Geschäftsanforderungen entspricht.
Da haben Sie es also - ein sehr kurzer Überblick über das, was VectorH so besonders macht und ihm die Fähigkeit verleiht, komplexe Anwendungsfälle des Datenmanagement zu lösen.
Wie kann ich VectorH ausprobieren?
Wenn Sie sich mit den oben beschriebenen Anwendungsfällen identifizieren können, sollten Sie VectorH ausprobieren. Sie können eine Testversion von VectorH hier herunterladen und eine E-Mail an eval@actian.com senden, um einen Testlizenzschlüssel anzufordern.
Wir haben kürzlich einen Spark-Vector Konnektor auf GitHub veröffentlicht, der die VectorH Funktionen durch die Integration mit dem Spark Ökosystem erweitert. Das VectorH-Team freut sich, diese Funktion verfügbar zu machen, da sie eine Vielzahl neuer Anwendungsfälle ermöglicht. Es wird bald einen Blog darüber geben, also halten Sie die Augen offen.
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden: Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.