Virtualisation des données : Entrepôt de données virtuel Déjà vu ?
Teresa Wingfield
3 janvier 2022

Dans les années 1990, j'étais analyste industriel spécialisé dans l'entreposage de données et l'informatique décisionnelle chez Giga Information Group (racheté par la suite par Forrester Research). Je suis toujours surpris de constater à quel point ces technologies ont peu évolué depuis. Les organisations d'aujourd'hui sont toujours confrontées à certaines des mêmes complexités lorsqu'il s'agit de construire un entrepôt de données et continuent de trouver très attrayant un raccourci tel que la virtualisation des données.
Qu'est-ce que la virtualisation des données ?
L'objectif de la virtualisation des données n'est pas nouveau. Tout comme le concept d'entrepôt de données virtuel apparu il y a une trentaine d'années, la virtualisation des données vous permet d'exécuter des requêtes directement sur le(s) système(s) source(s) au lieu de déplacer les données dans un entrepôt de données physique.
Les logiciels facilitent le développement, l'exploitation et la gestion de la virtualisation des données en offrant au moins certaines des fonctionnalités suivantes:
Abstraction
Résumer les aspects techniques des données stockées, tels que l'emplacement, la structure de stockage, l'API, le langage d'accès et la technologie de stockage.
Accès virtualisé aux données
Se connecter à différentes sources de données et les rendre accessibles à partir d'un point d'accès logique commun.
Transformation
Transformer, améliorer la qualité, reformater, agréger, etc. les données sources pour l'usage des consommateurs.
Fédération de données
Combiner des ensembles de résultats provenant de plusieurs systèmes sources.
Livraison des données
Publier les ensembles de résultats sous forme de vues et/ou de services de données exécutés par des applications clientes ou des utilisateurs sur demande.
Pourquoi vous avez toujours besoin d'un entrepôt de données
Bien que les solutions logicielles aient simplifié la virtualisation des données, celle-ci se heurte à certains des mêmes problèmes que les anciens entrepôts de données virtuels, en particulier si vous essayez d'utiliser cette approche pour remplacer un entrepôt de données plutôt que pour le compléter dans certains cas d'utilisation.
Voici quelques-unes des principales raisons pour lesquelles vous avez vraiment besoin d'un entrepôt de données :
- Dans un entrepôt de données, la création de rapports et l'analyse peuvent se faire sans incidence négative sur les performances de vos systèmes opérationnels. Imaginez, par exemple, comment le ralentissement de vos applications de commerce électronique pourrait affecter les ventes.
- Un entrepôt de données offre de meilleures performances pour les requêtes analytiques que les bases de données transactionnelles qui sont conçues pour lire et écrire efficacement des lignes individuelles. En outre, il est pratiquement impossible d'obtenir des performances acceptables lorsque les requêtes impliquent des jointures et des agrégations complexes et à forte cardinalité entre les systèmes sources.
- Un entrepôt de données permet l'archivage à long terme des données transactionnelles. Cela présente deux avantages : D'une part, les systèmes sources peuvent être purgés des anciennes données afin de garantir le maintien de performances élevées ; d'autre part, les données historiques servent de base à de nombreuses exigences analytiques, en particulier dans les scénarios d'intelligence artificielle et d'apprentissage automatique, où les données historiques sont souvent nécessaires pour obtenir des résultats valides.
- Contrairement à la virtualisation des données, un entrepôt de données peut toujours fournir des informations lorsque les systèmes sources sont hors ligne ou indisponibles. La virtualisation des données tente de surmonter le problème de l'indisponibilité du système source grâce à des mécanismes de mise en cache des données, mais il n'est tout simplement pas possible de mettre en cache tout ce qui peut être nécessaire.
- Les outils d'extraction, de transformation et de chargement (ETL) et de qualité des données utilisés dans l'entreposage des données permettent de gérer les exigences de transformation complexes et de résoudre les problèmes de qualité des données que la virtualisation des données n'aborde pas.
Le rôle de la virtualisation des données
Bien qu'elle ne remplace pas un entrepôt de données, la virtualisation des données est un complément précieux qui permet de surmonter de nombreux obstacles, notamment dans les cas suivants :
- Vous ne pouvez pas transférer vos données dans un entrepôt de données en raison de restrictions liées à la conformité.
- Vous avez trop de données à la périphérie pour les transférer dans l'entrepôt de données.
- Vous devez pouvoir répondre à des requêtes non planifiées qui nécessitent l'accès à des données qui ne sont pas stockées dans l'entrepôt de données.
- Vous avez besoin de plusieurs passages sur des données in-memory pour support des exigences de traitement itératif.
Résumé
La virtualisation des données peut s'avérer utile en tant que complément d'un véritable entrepôt de données, mais elle ne le remplace pas. Pour en savoir plus sur les avantages de l'entrepôt de données, je vous suggère de lire Data Warehouse vs. Database - Which Should You Choose ? Si les raccourcis ne suffisent pas en matière d'entrepôt de données, les meilleures pratiques suivantes vous seront utiles.
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.