Vector dans Hadoop 5.0 - Nouvelles fonctionnalités à prendre en compte
Actian Vector a été rebaptisé Actian Analytics Engine en 2026.
Nous annonçons aujourd’hui le lancement de la nouvelle version d’Actian Vector in Hadoop, qui étend notre support Apache Spark pour inclure un accès direct aux formats de fichiers natifs de Hadoop ainsi qu’une intégration plus étroite avec les applications Spark SQL et Spark R. Cette version intègre également des améliorations en termes de performances, une intégration avec frameworks de sécurité Hadoop et des optimisations au niveau de l’administration. Je vais aborder chacun de ces points plus en détail ci-dessous.
Combiner les tables Hadoop natives avec les tables vectorielles
Dans les versions précédentes, Vector in Hadoop exigeait que les données soient stockées dans un format propriétaire qui optimisait performances analytiques offrait un excellent taux de compression afin de réduire la latence d'accès. Vector in Hadoop 5.0 permet d'enregistrer des fichiers de données Hadoop (tels que les fichiers Parquet, ORC et CSV) en tant que tables dans VectorH et de joindre ces tables externes à des tables Vector natives. Vector in Hadoop assurera l'exécution analytique la plus rapide sur les données de ces formats, plus rapide même que leurs requête natifs. Cependant, requête ne sera jamais aussi rapide avec les tables externes qu'avec les données Vector natives. Si les performances sont importantes, nous vous recommandons de charger ces données dans Vector in Hadoop à l'aide de notre chargeur haute vitesse.
Cette fonctionnalité permet aux clients qui ont adopté un format de fichier standard et qui souhaitent éviter de copier leurs données dans un format propriétaire de bénéficier tout de même de l'accélération des performances offerte par VectorH. Les résultats détaillés du test de performance de stockage que nous avons réalisé dans le cadre de notre article SIGMOD ont montré que le format de fichier Vector était plus efficace en termes de requête , de lecture requête et de compression des données. Consultez notre article de blog de juillet 2016 pour plus de détails sur ce test de performance.
Une véritable intégration de la sécurité Hadoop en entreprise
Une enquête menée par Forrester l'année dernière a révélé que la sécurité des données est la principale préoccupation liée aux déploiements Hadoop. Vector in Hadoop offre nativement la sécurité de niveau entreprise que l'on attend d'une plateforme EDW mature, à savoir un contrôle d'accès discrétionnaire (contrôle de qui peut lire, écrire et mettre à jour quelles données dans la base de données), données au repos au niveau des colonnes, données en mouvement , l'audit de sécurité avec des journaux d'audit accessibles via SQL, et des alertes de sécurité. Pour le reste de l'écosystème Hadoop, ces préoccupations ont conduit au développement de Frameworks de sécurité Hadoop, à travers des projets tels qu'Apache Knox et Apache Ranger. Alors que ces frameworks à apparaître dans les demandes d'informations des clients, nous fournissons de la documentation sur la manière de configurer VectorH pour une intégration avec Apache Knox et Apache Ranger.
Améliorations significatives des performances
Les améliorations de performances qui ont permis à Vector 5.0 d'atteindre les meilleurs résultats au test de performance TPC-H 3000 Go pour les systèmes non clusterisés sont désormais disponibles dans Vector in Hadoop 5.0, où l'on observe généralement évolutivité linéaire, voire supérieure à la linéarité.
Génération automatique d'histogrammes
Les plans requête de base de données reposent largement sur la connaissance des données sous-jacentes ; en l'absence de statistiques, le système doit émettre des hypothèses sur distribution des données exemple, il supposera que tous les codes postaux correspondent au même nombre d'habitants, ou que les noms de famille des clients ont autant de chances de commencer par un X que par un M. VectorH 5.0 intègre une fonctionnalité de génération automatique de statistiques et d'histogrammes pour les tables Vector. Cela se traduit par la création automatique d'histogrammes et leur mise en cache en mémoire lorsqu'une requête une référence à une colonne dans une clause WHERE, HAVING ou ON sans histogramme explicitement créé (par optimizedb ou CREATE STATISTICS).
Accélérer le démarrage et l'arrêt grâce au journal d'écriture anticipée distribué
Dans les versions précédentes de Vector in Hadoop, le fichier de journalisation des écritures anticipées (WAL), qui contient les détails des mises à jour du système, était géré sur le nœud leader de VectorH. Ce fichier de journalisation, résidant en mémoire, occupait une grande partie de la mémoire du nœud leader et constituait un goulot d'étranglement lors du démarrage, car il devait être relu au cours de cette opération, ce qui pouvait prendre plusieurs minutes. Dans VectorH 5.0, nous avons mis en place un fichier WAL (Write Ahead Log) distribué, dans lequel chaque nœud dispose d'un WAL local. Cela allège la charge sur la mémoire, améliore nos temps de démarrage et, par conséquent, accélère considérablement le traitement des COMMIT.
Accélérer les requêtes grâce aux index distribués
Dans les versions précédentes, le nœud leader de VectorH était chargé de gérer les index min-max automatiques pour toutes les partitions. Pour rappel, l’index min-max répertorie les valeurs minimales et maximales stockées dans un bloc de données ; cet index interne nous permet d’identifier rapidement les blocs qui participeront au traitement d’une requête ceux qui n’ont pas besoin d’être lus. Cet index réside en mémoire et est construit au démarrage du serveur. Dans VectorH 5.0, chaque nœud est chargé de gérer sa propre partie de l'index, ce qui allège la charge sur la mémoire du nœud leader, améliore nos temps de démarrage en répartissant la charge de travail et accélère les requêtes DML.
Gestion simplifiée des partitions grâce à la spécification des partitions
Nous avons constaté que plusieurs clients de VectorH rencontraient des problèmes de performances parce qu’ils ne savaient pas qu’il fallait inclure la clause PARTITION lors de la création de tables, en particulier lorsqu’ils utilisaient CREATE TABLE AS SELECT (CTAS). Imaginons qu'ils disposaient d'une table existante répartie sur 15 partitions et qu'ils souhaitaient créer une nouvelle table basée sur cette table d'origine. Ils partaient du principe que celle-ci comporterait également 15 partitions, mais ce n'est pas ce que prévoit la norme SQL, et dans ce cas précis, le respect de la norme SQL nous a causé du tort. Pour remédier à cela, nous avons ajouté un paramètre de configuration qui peut être défini pour exiger l'utilisation de NOPARTITION ou de PARTITION= lors de la création d'une table vectorielle, que ce soit explicitement ou via CTAS.
Simplifiez la sauvegarde et la restauration grâce au clonage de bases de données
VectorH 5.0 introduit un nouvel utilitaire, clonedb, qui permet aux utilisateurs de créer une copie exacte de leur base de données dans une instance Vector distincte, par exemple pour transférer une base de données de production vers un environnement de développement à des fins de test. Cette fonctionnalité, qui avait été demandée par l'un de nos clients existants, a été très bien accueillie par l'ensemble des utilisateurs de Vector et VectorH.
Des exportations plus rapides grâce au déchargement parallèle de Spark Connector
Le connecteur Vector Spark permet désormais de décharger de grands volumes de données en parallèle sur tous les nœuds.
Chargement simplifié grâce à la syntaxe SQL pour vwload
VectorH 5.0 permet d'utiliser vwload avec l'instruction SQL COPY pour un chargement parallèle rapide des données depuis SQL.
Création simplifiée d'exportations CSV à partir de SQL
VectorH 5.0 permet d'exporter des données au format CSV à partir de SQL en utilisant la syntaxe suivante :
INSERT INTO EXTERNAL CSV 'nom_fichier' SELECT ... [WITH NULL_MARKER='NULL', FIELD_SEPARATOR=',', enregistrement]
Prochaines étapes
Pour en savoir plus, demandez une démonstration ou une version d'essai de VectorH afin de le tester au sein de votre Cluster Hadoop. Vous pouvez également découvrir la version mono-serveur d'Actian Vector fonctionnant sous Linux, distribuée gratuitement sous forme d'édition communautaire et disponible en téléchargement.