Gestion des données dans des entrepôts de données distribués
Actian Corporation
17 juillet 2019

L'intégration des données, tout comme les initiatives de transformation numérique qu'elle soutient, est un voyage et non une destination. Chaque entreprise se trouve quelque part sur un chemin qui va du passé à l'état souhaité de l'intégration future qu'elle aimerait atteindre. Si votre entreprise existe depuis un certain nombre d'années, il est probable que vous disposiez de plusieurs bases de données, data marts et data warehouses, développés pour des fonctions métier indépendantes, qui doivent maintenant être intégrés pour fournir la perspective holistique qu'exigent les processus métier transformés par le numérique.
Vous pouvez avoir l'ambition de fusionner toutes vos données dans un seul entrepôt de données (un effort qui pourrait durer plusieurs années) ; vous pouvez également décider de conserver vos systèmes existants ; ou vous pouvez choisir de restructurer vos données d'une nouvelle manière et de les distribuer dans des entrepôts de données régionaux. Tous ces scénarios ont un point commun : vous devrez gérer des requêtes distribuées pendant un certain temps (voire indéfiniment).
Les responsables informatiques acceptent de plus en plus la nécessité des requêtes distribuées, mais s'inquiètent en même temps des implications en termes de performances pour les systèmes opérationnels et analytiques qui doivent exploiter des données provenant d'entrepôts distribués. Les plateformes intégration basées sur le cloud et les entrepôts de données hybrides apportent une réponse à certains de ces défis.
Pourquoi les requêtes distribuées posent-elles problème ?
Les requêtes distribuées qui couvrent plusieurs entrepôts de données constituent un défi en termes de performances en raison de la latence causée par les jointures à distance, les opérations itératives et les grands ensembles de données qui (en plus d'être traités dans une base de données) doivent également traverser l'infrastructure du réseau. Au fur et à mesure que les analyses deviennent plus complexes et que les ensembles de données sous-jacents augmentent (deux situations courantes), le traitement de la requête prend plus de temps.
Ce n'est pas très grave pour les opérations de traitement par lots, mais les cas d'utilisation des données intégrées sont de plus en plus axés sur la fourniture d'informations en temps réel. Il peut s'agir d'une partie d'un processus transactionnel effectué par un agent (comme la vérification de l'historique des commandes, le stockage ou la compilation d'une vue à 360 degrés du client, etc.) ou d'une surveillance et d'une analyse en temps réel pour conduire une prise de décision. Quoi qu'il en soit, les utilisateurs finaux ont une faible tolérance pour les retards dans le traitement des données et s'attendent à ce que les données soient correctes, solides et à jour (en temps réel).
Comment relever le défi des requêtes distribuées ?
Les équipes informatiques disposent de quelques options pour résoudre les problèmes de performance des requêtes distribuées.
- Fusionner des entrepôts de données distribués en une seule instance - Bien que cette solution semble la plus efficace, elle n'est souvent pas rentable en raison des investissements dans l'infrastructure existante, des coûts de migration et des perturbations de l'activité.
- Séparer les requêtes et effectuer le traitement d'agrégation dans la couche d'application - De nombreuses petites entreprises ont utilisé cette approche, en s'appuyant sur des services Web ou des applications client pour combiner des données provenant de sources distribuées. Bien qu'elle évite les problèmes liés aux requête distribuées, l'infrastructure d'application a généralement une capacité et une vitesse de traitement inférieures à celles de l'infrastructure de base de données et, par conséquent, les gains de performance souhaités sont rarement atteints.
- Ajouter une couche d'agrégation de l 'entrepôt de données opérationnel à l'architecture de la solution - Cette approche s'avère être la méthode la plus efficace pour obtenir un traitement des données de de haute performance à l'échelle de l'entreprise. Laissez les données dans les systèmes sources et répliquez les informations dont vous avez besoin pour les requêtes dans une couche d'entrepôt de données spécialisée, spécialement conçue pour l'agrégation et le traitement des requête temps réel. Ces systèmes peuvent souvent être mis en œuvre avec une modification minimale du code de l'application et peuvent être mis à l'échelle à l'aide de services en nuage pour support même les grands ensembles de données de l'entreprise.
Les entrepôts de données distribués feront probablement partie de l'écosystème informatique des entreprises pendant de nombreuses années. Il est essentiel de prendre des décisions éclairées sur la manière de gérer les données dans ces entrepôts et de support opérations de requête distribuées en temps réel pour aider votre entreprise à passer d'une transformation numérique de base à une prise de décision en temps réel, basée sur les données, et à une agilité commerciale de l'entreprise.
Lesplateformes gestion des données en nuage d'Actian peuvent vous aider. En plus de fournir une plateforme d'intégration hybride en nuage basée sur Actian DataConnect, Actian permet également aux organisations de déployer des entrepôts de données sur des plateformes en nuage et sur site.
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.