Lancement de produits

Pssst ... Avez-vous entendu parler de VectorH ?

Actian Corporation

4 mai 2016

silhouettes d'hommes d'affaires

Nous avons été très occupés à développer des fonctionnalités innovantes dans le produit Actian Vector in Hadoop (VectorH) et nous aimerions vous en parler.

Alors, la liste des fonctionnalités et des innovations que nous avons réalisées récemment pour VectorH... attendez... savez-vous au moins ce qu'est VectorH ? Oui, c'est un excellent exemple de CamelCase, mais nous n'avions pas besoin d'un article de blog pour cela.

Permettez-moi de concentrer ce billet sur ce qu'est réellement VectorH et sur les types de problèmes qu'il est censé résoudre. Nous aborderons les nouvelles fonctionnalités dans un article ultérieur.

Qu'est-ce que VectorH ?

VectorH est notre SGBDR distribué en colonnes, de de haute performance, conforme à ACID et ANSI SQL 2003, qui fonctionne nativement au sein d'un Cluster Hadoop Apache Cluster Hadoop. Il utilise HDFS ou MapR-FS pour le stockage et Hadoop YARN pour la gestion des ressources. VectorH trouve son origine dans la base de données Vectorwise enregistrement TPC-H, qui a ouvert la voie au traitement vectorisé.

Au cœur de Vectorwise (et de VectorH) se trouve le moteur d'exécution x100, issu des recherches menées au CWI (l'Institut national de recherche néerlandais pour les mathématiques et l'informatique).

En quoi VectorH est-il différent ?

La "sauce secrète" qui rend VectorH unique est sa mise en œuvre mature et de qualité de production du traitement vectoriel et des arbres delta positionnels (ce qui lui permet d'effectuer des mises à jour transactionnelles en temps réel très efficaces sans avoir d'impact sur les temps de requête ).

Des mises à jour ? Oui, c'est exact - nous pouvons effectuer des mises à jour sur HDFS bien qu'il s'agisse d'un système de fichiers append-only. L'industrie commence tout juste à voir certains systèmes offrir des capacités de mise à jour sur Hadoop, mais VectorH le supporte depuis un certain temps et il a beaucoup évolué depuis sa conception.

VectorH comprend un certain nombre d'autres innovations telles que des méthodes de compression légères, la parallélisation multi-cœur , le placement intelligent des blocs HDFS, la gestion prédictive des tampons, etc.

Ces innovations se traduisent par des performances enregistrement et les caractéristiques de performance de VectorH méritent un article à part. La performance est un facteur très important lorsqu'il s'agit de traitement de données à grande échelle, mais elle ne doit pas être le seul facteur à prendre en compte pour choisir la bonne solution pour votre implémentation.

Dois-je utiliser VectorH ?

Nos clients ont pu utiliser VectorH pour répondre aux cas d'utilisation suivants :

  • Réduction des coûts et de la complexité: Certains de nos clients disposaient de clusters Hadoop distincts et de clusters dédiés à l'entreposage de données. Les données étaient transférées du Cluster Hadoop vers un cluster dédié à l 'entrepôt de données, puis utilisées pour le traitement analytique ou mises à la disposition des outils bi. Les clusters de l'entrepôt de données étaient coûteux à entretenir et ne s'adaptaient pas à l'augmentation des données et de la complexité. Ils ont pu passer à VectorH au sein de leurs clusters Hadoop existants pour obtenir la même fonctionnalité SQL, créer des temps de réponse plus rapides et servir leurs utilisateurs d'informatique décisionnelle sans avoir à réécrire leurs requêtes, et éliminer le matériel/logiciel d'entreposage de données séparé et coûteux.
  • Gestion des charges de travail des entreprises: Il existe une grande variété de moteurs SQL disponibles pour Hadoop, et bien qu'ils soient innovants, nos clients ont constaté que a) il y avait un manque de maturité SQL, de sorte que des milliers de requêtes existantes ne fonctionnaient pas et devaient être réécrites, ou b) il y avait des problèmes de stabilité où ils ne pouvaient pas évoluer pour gérer leurs charges de travail de production avec un grand nombre de requêtes simultanées. VectorH s'est avéré avoir une facilité de gestion, une évolutivité et une intégrité de niveau entreprise.
  • Respecter les SLA: Un certain segment de nos clients du secteur financier a des exigences très strictes en ce qui concerne certaines tâches qui doivent être terminées dans les délais afin de pouvoir générer des rapports et des informations critiques pour l'entreprise. Cela nécessitait une performance plus rapide du système sous-jacent ainsi que la capacité de modifier un sous-ensemble de points de données (ajustements) sans avoir à exécuter à nouveau toute la tâche ETL. Les arbres Positional Delta de VectorH ont été capables de gérer ces mises à jour incrémentielles sans impacter les temps de requête .

Si vos volumes de données sont supérieurs à 5 To ou si vous êtes confronté à l'un des trois problèmes ci-dessus, vous devriez envisager Actian VectorH pour fournir l'échelle et la performance nécessaires pour répondre aux besoins de votre entreprise.

Voilà donc un très bref aperçu de ce qui rend VectorH si spécial et lui donne la capacité de résoudre les cas d'utilisation complexes de la gestion des données en entreprise.

Comment puis-je essayer VectorH ?

Si vous vous reconnaissez dans les cas d'utilisation décrits ci-dessus, vous devriez essayer VectorH. Vous pouvez télécharger une version d'essai de VectorH ici et envoyer un courriel à eval@actian.com pour demander une clé de licence d'essai.

Nous avons récemment publié un connecteur Spark-Vector sur GitHub qui étend les capacités de VectorH en s'intégrant à l'écosystème Spark. L'équipe VectorH est très enthousiaste à l'idée de rendre cette fonctionnalité disponible car elle permet une variété de nouveaux cas d'utilisation. Un blog sera bientôt publié à ce sujet, alors gardez l'œil ouvert.

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous couvrons des sujets allant de l'ingestion de données en temps réel à l'analyse pilotée par l'IA. Faites connaissance avec l'équipe dirigeante https://www.actian.com/company/leadership-team/