Plate-forme de données

L'endroit où vous effectuez le traitement analytique est important

Actian Corporation

20 juillet 2020

Traitement analytique

L'offre Vector pour Hadoop d'Actian offre une performance accrue pour les requêtes analytiques sans l'augmentation des coûts qui y est associée. Si vous êtes à la recherche d'un traitement analytique de de haute performance pour stimuler la prise de décision opérationnelle, l'endroit où vous effectuez votre traitement est important. En minimisant le déplacement des données et en effectuant le traitement localement, vous pouvez réduire considérablement la latence. En utilisant un système comme Actian Vector pour effectuer ce traitement local, vous pouvez atteindre des niveaux de performance encore plus élevés.

Sur la boîte, dans le centre de données ou à l'autre bout du pays

Lorsque l'on entend dire que "l'endroit où vous effectuez vos traitements est important", la première idée qui vient à l'esprit est la latence du réseau. Il est facile de comprendre comment la transmission de données sur l'internet, à travers le pays ou même à travers la ville, peut ralentir votre traitement. Il en va de même dans votre centre de données. La colocalisation du stockage et de l'informatique à proximité l'un de l'autre (sur le même rack ou même le même appareil) réduit la latence de traitement.

De nombreuses entreprises tirent parti des services en nuage et des systèmes distribués pour améliorer les performances des opérationsOLTP des utilisateur finaux. Lorsqu'il s'agit d'effectuer des analyses, la question de la distance entre à nouveau en jeu. Où devez-vous effectuer votre traitement analytique ? Pour la plupart des entreprises, le cloud est l'endroit idéal pour héberger votre entrepôt de données et effectuer le calcul analytique, car il vous permet de rapprocher vos analyses de vos entrepôts de données et, en même temps, d'exploiter des ressources de calcul à l'échelle du cloud.

En supposant que vous ayez résolu ces problèmes de "grande distance", est-il possible d'optimiser davantage ? Oui, c'est possible. Si le traitement des données en temps réel ou analyses des données en temps réel pour piloter les opérations et la prise de décision sont les objectifs que vous essayez d'atteindre, vous devez porter vos performances analytiques à un niveau supérieur et examiner comment les bases de données et les logiciels que vous utilisez peuvent être optimisés pour tirer le meilleur parti de la capacité des ressources disponibles.

Le disque est lent. La mémoire est meilleure. La mémoire cache est la plus rapide

Examinons ce qui se passe dans un système d'analyse (le matériel et le logiciel que vous utilisez). Ces systèmes sont généralement constitués de trois composants matériels qui ont une influence directe sur les performances : les disques, la mémoire et la mémoire cache des puces. Lorsque vous effectuez des opérations de calcul (qui ne sont en fait qu'un ensemble de formules mathématiques), vous manipulez des données qui sont stockées dans l'un de ces trois endroits. Les puces disposent d'une mémoire cache interne, qui offre les performances les plus rapides mais la capacité la plus faible. Les puces de mémoire RAM ont une plus grande capacité (bien qu'elle soit limitée) et des performances assez rapides parce que les données sont temporairement maintenues dans un état de suspension au lieu d'être écrites sur un support physique, mais beaucoup plus lentes que la mémoire cache des puces. Le stockage sur disque est le plus lent car les données sont écrites sur un support physique (un disque) et lues à partir de ce support physique lorsqu'il est nécessaire d'y accéder. Avec le stockage en nuage, la capacité de disque disponible est pratiquement illimitée.

Les systèmes d'entrepôt de données et d'analyse utilisent chacun de ces types de stockage ainsi que la capacité de calcul des unités centrales de différentes manières. C'est ce qui donne à Actian Vector un avantage en termes de performance par rapport aux autres solutions. Vector optimise l'utilisation de chaque couche de l'infrastructure du système, en éliminant la capacité gaspillée afin de maximiser le rendement et de minimiser les coûts. Voici quelques exemples :

Maximiser l'utilisation des cœurs du processeur

Les unités centrales modernes sont dotées de plusieurs cœurs, ce qui signifie qu'elles peuvent exécuter plusieurs opérations en même temps. Malheureusement, la plupart des logiciels (y compris les systèmes d'entrepôt de données) ne sont pas conçus pour tirer parti de cette capacité de traitement parallèle et, par conséquent, vous n'utilisez qu'une petite partie de la capacité disponible. Les plateforme de données Actian et Actian Vector sont conçues pour exécuter efficacement un grand nombre de requêtes simultanées demandées par un grand nombre d'utilisateurs. Les requêtes sont divisées en petits morceaux où elles peuvent être exécutées en parallèle. Ceci est important car cela permet de maximiser l'utilisation de la capacité du processeur dont vous disposez. Les cycles du processeur sont une capacité basée sur le temps. Pensez-y comme aux heures de la journée dont vous disposez pour effectuer des tâches professionnelles. Le défi consiste à utiliser la capacité disponible le plus efficacement possible et à éviter les temps morts, car une fois le temps écoulé, vous ne pouvez plus le récupérer.

Réduire la quantité de données écrites et lues sur les disques

Les solutions Actian sont conçues pour une utilisation très efficace des disques - réduisant les opérations d'E/S qui peuvent ralentir le traitement analytique. plateforme de données Actian est une base de données en colonnes pure. Les bases de données traditionnelles sont basées sur des rangées - les enregistrements sont dans des rangées, et vous devez lire toute la rangée pour effectuer une requête et faire de l'analyse. Actian traite les données comme une série de colonnes - c'est ce qui l'optimise pour le traitement analytique. Parce qu'une colonne de données est constituée du même type de données, les opérations d'analyse peuvent être optimisées. Sous le capot, vous constaterez que chaque colonne est stockée sous forme de fichiers sur le disque avec différents blocs de données. Les index MinMax sur les blocs de données permettent un tri plus rapide des données en aidant la plateforme à identifier plus efficacement les données que l'utilisateur essaie d'analyser et celles qui peuvent être ignorées.

Lorsque vous faites de l'analyse opérationnelle et que vous essayez de prendre des décisions en temps réel avec des données, vous avez besoin de la meilleure performance possible. En combinant l'augmentation des opérations effectuées à l'aide de la mémoire cache des puces et de la mémoire cache avec un processus plus efficace de gestion des données stockées sur disque, Actian peut optimiser les performances et l'utilisation du matériel de base de données tout en minimisant la quantité de données écrites sur le disque. Ces deux points sont importants car ils se traduisent directement par une réduction des coûts d'exploitation. En résumé, il s'agit d'utiliser plus efficacement les ressources dont vous disposez pour atteindre des performances optimales et minimiser les coûts.

Pour en savoir plus, visitez le site https://www.actian.com/lp/actian-vector-sql-accelerator-for-hadoop/

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.