Mise en œuvre de votre lac de données Hadoop

#Moteur d'analyse #Entrepôt de données #Hadoop

Actian Vector a été rebaptisé Actian Analytics Engine en 2026.

Avez-vous déjà essayé de joindre vos tables de faits et de dimensions pour générer des analyses opérationnelles ? Si vous souhaitez effectuer des analyses de données à grande échelle sur des sujets tels que la perte de clientèle, vous devrez probablement le faire. Le problème, c’est que ces tables sont très volumineuses, et lorsque vous les joignez, la table de données matérialisée qui en résulte est gigantesque (c’est-à-dire exponentiellement plus grande que les tables sources) et risque de dépasser le délai d’attente avant même d’avoir fini de s’exécuter. Si vous parvenez à pré-rejoindre les données, celles-ci seront probablement obsolètes (désolé). En effet, les données sources changent constamment, et le fichier de données résultant est si volumineux que les requêtes que vous tenterez d'exécuter dessus ne seront pas très performantes non plus. Il doit y avoir une meilleure solution !

Bases de données vectorielles et bases de données traditionnelles – Structure en colonnes

Vector for Hadoop est conçu pour aider à résoudre ce problème en vous permettant de contourner l'étape intermédiaire consistant à pré-joindre les données dans une table de données matérialisée, et d'effectuer à la place de haute performance jointures de haute performance . La base de données Vector commence par réorganiser vos données en vecteurs sur lesquels des opérations SIMD single instruction multiple data) peuvent être effectuées. En substance, Vector réorganise vos données pour se concentrer sur les relations entre les attributs (sur plusieurs enregistrements) plutôt que sur les attributs associés à un seul enregistrement. Ceci est important pour plusieurs raisons.

La plupart des questions métier que vous cherchez à résoudre à l'aide de l'analyse concernent des données agrégées (montant moyen des transactions, nombre de ventes sur une période donnée, etc.). Vous cherchez à appréhender un processus dans son ensemble plutôt qu'à suivre des transactions individuelles. Cet objectif métier est important, car il explique pourquoi vous devez effectuer vos analyses sur un entrepôt de données plutôt que sur vos systèmes transactionnels. Les systèmes transactionnels sont optimisés pour le traitement de transactions individuelles (d'où leur nom). Les entrepôts de données sont quant à eux optimisés pour l'analyse de lots de données. Les deux systèmes sont capables d'effectuer le travail de l'autre, mais si vous recherchez des analyses opérationnelles, vous devez utiliser un entrepôt de données, idéalement de type colonnaire.

La performance passe par la spécialisation

Les bases de données et les systèmes d'analyse ne font qu'effectuer une série d'opérations mathématiques sur vos données : comparaison de chaînes de caractères, de nombres entiers, etc. Les différents types de données se prêtent à des opérations différentes. Différents ensembles d'opérations peuvent être effectués sur différents types de données. Par exemple, vous pouvez effectuer des opérations d'addition, de soustraction, de comparaison « supérieur à », « inférieur à », ainsi que des opérations de minimum et de maximum sur des nombres, mais pour les chaînes de caractères, vous ne pouvez en réalité effectuer que des comparaisons de caractères (égal à, contient, commence par, etc.). Les ordinateurs sont conçus pour effectuer des opérations mathématiques sur des nombres, ce qui explique pourquoi ce type de transactions s'exécute plus rapidement.

Le problème avec les bases de données traditionnelles organisées en lignes est que les attributs associés à un enregistrement données sont souvent de types variés. Pour analyser ces données, le système doit essentiellement se rabattre sur le « plus petit dénominateur commun », qui, dans la plupart des cas, consiste en des comparaisons de chaînes de caractères. En réorganisant les données en colonnes, Actian Vector vous permet d'effectuer des opérations numériques (plus rapides) lorsque les données s'y prêtent, ce qui accélère requête globales requête .

Inutile d'attendre que vos données soient mises à jour

L'approche traditionnelle consistant à pré-joindre les données pour permettre l'analyse fonctionne bien si vous avez affaire à des données historiques essentiellement statiques. Si le jointage des données prend quelques heures, ce n'est pas très grave. Cela devient problématique lorsque les données sources changent constamment et que les informations analytiques que vous essayez d'obtenir sont utilisées pour prise de décision en temps réel. De plus en plus d'entreprises cherchent à opérationnaliser leurs lacs de données Hadoop et à utiliser les données qu'ils contiennent pour alimenter des tableaux de bord opérationnels et Fonctionnalités de surveillance des processus en temps réel Fonctionnalités ne tolèrent guère de latence des données. Un avantage grands avantage la solution Actian Vector est qu'elle évite d'avoir à pré-agréger et pré-traiter les données dans des tables de données matérialisées, et qu'elle effectue à la place des jointures à la demande des tables de données sources. C'est précisément ce qu'exige l'analyse opérationnelle.

À propos de l'auteur