Architecture des données

Opérationnaliser votre lac de données Hadoop

Actian Corporation

15 juillet 2020

Lac de données Hadoop

Avez-vous déjà essayé de joindre vos tables de faits et de dimensions pour générer des analyses opérationnelles ? Si vous souhaitez effectuer des analyses de données à grande échelle sur des sujets tels que l'attrition de la clientèle, vous devrez probablement procéder de la sorte. Le problème est que ces tables sont très volumineuses et que, lorsque vous les réunissez, la table de données matérialisées résultante est énorme (c'est-à-dire exponentiellement plus grande que les tables sources) et risque d'être interrompue avant même d'être terminée. Si vous parvenez à pré-joindre les données, les données résultantes sont probablement périmées (désolé). En effet, les données sources changent constamment et les données résultantes sont tellement volumineuses que les requêtes que vous essayez d'exécuter sur ces données ne seront pas très performantes non plus. Il doit y avoir une meilleure solution !

Bases de données vectorielles et bases de données traditionnelles - Orientation colonnaire

Vector pour Hadoop a été conçu pour résoudre ce problème en vous permettant d'éviter l'étape intermédiaire de la jointure préalable des données dans une table de données matérialisées, et d'effectuer à la place des jointures "à la demande" de de haute performance . La base de données Vector commence par réorienter vos données en vecteurs où les opérations SIMD (single instruction multiple data) peuvent être effectuées. Essentiellement, Vector réoriente vos données pour se concentrer sur les relations entre les attributs (à travers plusieurs enregistrements) au lieu de se concentrer sur les attributs associés à un seul enregistrement. Ceci est important pour plusieurs raisons.

La plupart des questions commerciales que vous essayez de résoudre à l'aide de l'analyse concernent des données agrégées (taille moyenne des transactions, nombre de ventes au cours d'une période, etc.) Vous essayez de comprendre un processus de manière globale plutôt que de suivre des transactions individuelles. Cet objectif commercial est important car il constitue la base de la raison pour laquelle vous devez exécuter des analyses sur un entrepôt de données plutôt que sur vos systèmes transactionnels. Les systèmes transactionnels sont optimisés pour le traitement des transactions individuelles (d'où leur nom). Les entrepôts de données sont optimisés pour l'analyse de lots de données. Les deux systèmes sont capables de faire le travail de l'autre, mais si vous recherchez des analyses opérationnelles, vous devez utiliser un entrepôt de données et, idéalement, un entrepôt qui a une orientation en colonnes.

La performance vient de la spécialisation

Les bases de données et les systèmes d'analyse ne font qu'effectuer un ensemble d'opérations mathématiques sur vos données - comparer des chaînes de caractères, des nombres entiers, etc. Différents types de données peuvent faire l'objet de différentes opérations. Différentes séries d'opérations peuvent être effectuées sur différents types de données. Par exemple, vous pouvez effectuer des opérations d'addition, de soustraction, de plus grand que, de moins grand que, de minimum et de maximum sur les nombres, mais pour les chaînes de caractères, vous ne pouvez vraiment faire que de la correspondance de caractères (égal à, contient, commence par, etc.). Les ordinateurs sont conçus pour effectuer des opérations mathématiques sur des nombres, de sorte que ces types de transactions sont plus rapides.

Le problème des bases de données traditionnelles basées sur des lignes est que les attributs associés à un enregistrement auront probablement des types de données mixtes. Pour analyser ces données, le système doit essentiellement revenir au "plus petit dénominateur commun", qui, dans la plupart des cas, est la comparaison de chaînes de caractères. En réorientant les données en colonnes, Actian Vector vous permet d'effectuer des opérations numériques (plus rapides) lorsque les données le permettent, ce qui accélère les performances globales de la requête .

Pas besoin d'attendre la mise à jour de vos données

L'approche traditionnelle consistant à pré-joindre les données pour permettre l'analyse fonctionne bien si vous avez affaire à des données historiques qui sont essentiellement statiques. S'il faut quelques heures pour joindre les données, ce n'est pas grave. Cela devient problématique lorsque les données sources changent constamment et que les informations analytiques que vous essayez de développer sont utilisées pour la prise de décision en temps réel. De plus en plus d'entreprises cherchent à rendre opérationnels leurs lacs de données Hadoop et à utiliser les données qu'ils contiennent pour alimenter des tableaux de bord opérationnels et des capacités de surveillance des processus en temps réel qui ont peu de tolérance pour la latence des données. L'un des grands avantage de la solution Actian Vector est qu'elle contourne la nécessité de préagréger et de prétraiter les données dans les tables de données matérialisées et qu'elle exécute à la place des jointures à la demande sur les tables de données sources. C'est précisément ce qu'exige l'analyse opérationnelle.

Pour en savoir plus sur Actian Vector for Hadoop, visitez le site https://www.actian.com/lp/actian-vector-sql-accelerator-for-hadoop/.

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.