What is a data warehouse? Modern companies run on data, and much of it. A data warehouse provides a single place to aggregate data from all your IT systems, where you can analyze it and develop the insights you need to be competitive. This guide to data warehouses will explain what a data warehouse is, why you need it, how it’s used, and the benefits you can achieve.
Définition d'un entrepôt de données
A “data warehouse” is a repository of historical data that is organized by subject to support decision-makers in an organization. Data warehouses are systems used to store data from one or more disparate sources in a centralized place where it can be accessed for reporting and data analytics. The data in the data warehouse may be current or historical, and may be in its original raw data form or processed/summarized.
Les données d'un entrepôt de données sont importées depuis des systèmes sources (tels que des ERP, des CRM ou plateformes financières) et regroupées dans l'entrepôt, où elles peuvent être utilisées à l'échelle de l'entreprise pour créer des rapports analytiques et support prise de décision. Le processus général utilisé pour agréger et transformer les données en vue de leur stockage est appelé « extraction, transformation et chargement », ou ETL en abrégé. Cela signifie qu'une entreprise effectue une copie des données à partir des systèmes sources, en laissant les données d'origine intactes et en place, ce qui évite toute perturbation des processus transactionnels en cours.
Une fois les données chargées dans l'entrepôt de données, elles sont affinées et traitées afin d'éliminer les problèmes de qualité, d'intégrer les sources de données interdépendantes et de les organiser pour faciliter leur utilisation. Les entrepôts de données contiennent également souvent des synthèses de données pré-traitées et des instantanés de données à différents moments, qui servent à faciliter l'analyse. Alors que les systèmes transactionnels se concentrent principalement sur le maintien de l'état actuel des données (en écrasant les valeurs lors de la mise à jour), les entrepôts conservent l'historique des changements et de l'évolution des données d'une entreprise. Cela est particulièrement important lors de la réalisation d'analyses de tendances et d'autres analyses commerciales visant à répondre à des questions sur les raisons pour lesquelles un événement s'est produit au sein d'une entreprise.
Pourquoi les entreprises ont-elles besoin d'un entrepôt de données ?
Alors que les entreprises s'engagent dans la transformation numérique de leurs activités, presque tous les processus métier dépendent désormais d'une multitude de systèmes informatiques et des données que ces systèmes enregistrement gèrent. Pour que les entreprises fonctionnent efficacement et atteignent leurs objectifs, les employés, des cadres supérieurs aux collaborateurs individuels, ont besoin d’un accès efficace aux données et aux analyses qui fournissent des informations exploitables sur le fonctionnement de l’entreprise, les domaines de risque ou de préoccupation et les opportunités d’avantage concurrentiel. Les informations dont ces personnes ont besoin proviennent de nombreux systèmes sources différents, mais pour qu’elles soient facilement accessibles à des fins d’analyse, les entreprises ont besoin que les données soient agrégées en un seul et même endroit. C’est ce qu’on appelle un entrepôt de données.
- Le besoin d'informations exploitables provenant de plusieurs systèmes sources.
- Assurer l'archivage à long terme des données transactionnelles afin de pouvoir vider les systèmes sources et maintenir ainsi des performances élevées.
- Offrir un environnement permettant de générer des rapports et d'effectuer des analyses sans alourdir la charge des systèmes opérationnels.
Le besoin d'informations intégrées est de loin le principal facteur motivant l'investissement dans des systèmes d'entrepôts de données, car il répond à la fois à des besoins stratégiques (générant un avantage concurrentiel) et à des besoins tactiques et opérationnels visant à soutenir les activités quotidiennes de l'entreprise. Les entrepôts de données constituent des investissements informatiques coûteux, tant au niveau de l'installation initiale que de l'exploitation. À ce titre, ils sont considérés comme un investissement à long terme et s'intègrent au fil du temps dans le tissu sous-jacent de l'écosystème informatique d'une entreprise. Les données stockées dans un entrepôt de données proviennent souvent de l'ensemble de l'entreprise et permettent aux utilisateurs issus de fonctions commerciales disparates d'exploiter des ressources de données qui s'étendent bien au-delà de leur domaine direct de contrôle ou d'influence.
Concepts relatifs aux entrepôts de données
Il existe de nombreuses variantes des entrepôts de données et des concepts associés, ce qui peut prêter à confusion pour quelqu'un qui découvre le sujet. Voici quelques-uns des concepts les plus courants liés aux entrepôts de données, afin de démystifier ce sujet :
- Entrepôt de données d'entreprise (EDW) – L'EDW est un entrepôt de données conçu pour support entreprise, et non pas seulement une fonction spécifique. Les entrepôts de données d'entreprise sont courants dans les grandes entreprises et jouent un rôle essentiel en assurant la liaison entre les différentes divisions, les sites et les systèmes informatiques fragmentés. Même si votre entreprise dispose de plusieurs systèmes transactionnels, un EDW peut être utilisé pour regrouper toutes vos données en un seul endroit, afin de permettre une analyse et un reporting centralisés.
- Magasin de données opérationnelles (ODS) – Un magasin de données opérationnelles est la partie de votre entrepôt de données global qui contient les données brutes agrégées provenant de vos systèmes transactionnels et opérationnels avant qu'elles ne soient transformées et synthétisées. Les entreprises gèrent souvent un ODS distinct de leurs data marts afin de permettre aux analystes d'accéder aux données sous-jacentes utilisées pour générer des rapports.
- Data Mart – Les data marts constituent une vue simplifiée des données d'un entrepôt de données, axée sur un sujet ou un domaine fonctionnel spécifique. Au sein d'une organisation, c'est souvent un seul service qui crée et gère les data marts, lesquels peuvent (ou non) être intégrés à l'entrepôt de données de l'entreprise. Les entreprises qui ne disposent pas d'un entrepôt de données complet peuvent recourir à des data marts à la place. Les données stockées dans les data marts sont généralement organisées et filtrées pour support besoins spécifiques du service qui les gère. La plupart des data marts sont actualisés chaque nuit à partir des systèmes sources ; les données qu’ils contiennent peuvent donc dater de 24 heures.
- OLAP – Online analytical processing is a specialty system designed to support data-mining activities. They apply multiple layers of complex algorithms to roll up, drill down, and slice and dice raw data into business insights. OLAP systems typically execute multiple times during a day, generating analytics that are a few hours old (compared to data marts, which often have a latency of a full day).
- informatique décisionnelle BI) – informatique décisionnelle est un terme général utilisé pour décrire un ensemble de techniques et d'outils permettant l'acquisition et la transformation de données brutes en informations pertinentes et utiles à des fins d'analyse commerciale. Les entrepôts de données constituent souvent le cœurFonctionnalités informatique décisionnelle d'une entreprise,Fonctionnalités plus des outils d'analyse et de reporting.
- exploration de données – exploration de données est le processus qui consiste à découvrir des tendances dans de grands ensembles de données. exploration de données moderne implique exploration de données une combinaison d'apprentissage automatique, d'intelligence artificielle, de statistiques et de stockage de données. Les entreprises exploitent les données pour en tirer des informations commerciales exploitables qui leur confèrent un avantage concurrentiel.
- ETL ( Export, Transform, Load) , ou simplement ETL, désigne le processus utilisé pour transférer des données depuis des systèmes sources transactionnels vers l'entrepôt de données, où elles peuvent être affinées et exploitées. Les types et l'étendue de la transformation des données déterminent souvent le niveau de qualité des données dans l'entrepôt.
- nettoyage des données – nettoyage des données désigne l'ensemble des activités menées pour résoudre les problèmes de qualité dans les données brutes. Les données issues de différentes sources héritent non seulement des problèmes de qualité des données sources (tels que les inexactitudes, les données manquantes, les enregistrements incomplets et les relations rompues), mais sont également susceptibles de comporter des lacunes, des redondances et des conflits entre les sources de données. nettoyage des données ces problèmes avant que les données ne soient intégrées dans l'entrepôt de données.
- métadonnées – métadonnées des informations sur vos données, telles que leur taille, leur format, leur source, leurs descriptions, leurs relations et leur classification. métadonnées important dans un entrepôt de données, car elles aident les utilisateurs à trouver et à comprendre facilement les données qui ont été déplacées de leur contexte d'origine.
- Dictionnaire de données – Le dictionnaire de données est un ensemble de données de référence concernant les objets, les éléments et les attributs stockés dans votre entrepôt de données. Il permet aux utilisateurs de comprendre le contenu et le contexte des données au-delà des simples libellés et descriptions de champs.
- gouvernance des données gouvernance gouvernance des données désigne l'ensemble des processus et des contrôles qui garantissent que les données sont créées et gérées conformément aux normes, politiques et règles métier de l'entreprise et qui, au fur et à mesure de leur transformation, assurent le respect des définitions des données et des contraintes d'intégrité définies dans le modèle de données.
Architecture d'entrepôt de données
Il existe deux types d'architectures qu'il est important de comprendre dans un entrepôt de données. L' architecture système des différents composants techniques qui, ensemble, constituent la solution d'entrepôt de données, et l' architecture des données des informations stockées dans l'entrepôt de données.
L'architecture d'un entrepôt de données s'articule généralement autour des étapes de transformation qui permettent de transformer les données brutes en informations exploitables et utiles pour les utilisateurs. On peut la comparer à un workflow de fabrication, qui transforme les matières premières en produits finis prêts à l'emploi, en passant par plusieurs étapes de transformation tout au long du processus.
- Sources de données – Il s'agit des différents systèmes sources qui alimentent l'entrepôt de données.
- Zone de transit ou lac de données – La zone de transit sert à stocker les données brutes importées depuis chacune des différentes sources de données, afin qu'elles puissent être traitées sans nuire aux performances des systèmes transactionnels.
- Intégration – La couche d'intégration sert à relier entre elles les données disparates provenant de diverses sources, à établir des relations clés, à résoudre les doublons et à stocker les données dans un entrepôt de données opérationnel (ODS).
- Base de données d'entrepôt – Les données sont transférées depuis le magasin de données opérationnelles vers la base de données centrale de l'entrepôt, où elles sont cataloguées et organisées en groupes hiérarchiques appelés « dimensions », ainsi qu'en faits et en faits agrégés. Cette organisation hiérarchique facilite la recherche de données dans l'entrepôt et améliore les performances de traitement.
- Entrepôt de données opérationnel – Un entrepôt de données opérationnel (ODW) répond aux besoins en matière d'analyse opérationnelle, qui constituent la base de analyses des données en temps réel. Un ODW se caractérise notamment par l'actualité de ses données, ses performances élevées, sa capacité à gérer efficacement les mises à jour et sa flexibilité de déploiement, sur site dans le cloud.
- Data Marts – Les data marts sont des vues, ou des sous-ensembles, de données qui ont été synthétisées et sélectionnées à l'intention d'un public spécifique. Ils ont pour objectif de faciliter l'accès aux données stockées dans l'entrepôt de données et d'appliquer un niveau de contrôle d'accès à ces données, garantissant ainsi que seules les personnes autorisées puissent y accéder.
- Utilisateurs – Il s'agit de l'ensemble des personnes, des processus métier et des systèmes qui accèdent aux données de l'entrepôt de données. Cela inclut à la fois les utilisateurs humains et d'autres systèmes, tels que l'intelligence artificielle (IA) et support la décision.
L'architecture de données d'un entrepôt de données désigne la manière dont les données sont organisées au sein de celui-ci. L'architecture de données est un sujet plus complexe, car les transformations qui s'opèrent au sein du système d'entrepôt de données impliquent souvent des changements d'une architecture de données à une autre. Dans la plupart des systèmes sources, les données sont organisées sous forme de schémas de bases de données relationnelles, suivant un ensemble de principes appelés « normalisation des données », introduits par Edgar Codd en 1970. Alors que les architectures de données relationnelles normalisées fonctionnent bien pour les systèmes transactionnels qui ne s'intéressent qu'aux données actuelles, les entrepôts de données transforment les données relationnelles en ce qu'on appelle un schéma en étoile, qui agrège les données en fonction de leur contenu et de la manière dont elles sont consommées. Les data marts (les vues au sein d'un entrepôt de données consommées par les utilisateurs) peuvent transformer à nouveau l'architecture de données, soit en vues de processus métier, soit en vues simplifiées par domaine thématique, qui s'alignent sur la manière dont les données sont utilisées pour prise de décision.
Qu'est-ce qu'un système d'entrepôt de données ?
L'entrepôt de données est une base de données stable et en lecture seule qui regroupe les informations provenant de différents systèmes en un seul emplacement facile d'accès. Il s'agit d'une couche superposée à d'autres bases de données, spécialement conçue pour support . Le terme « système d'entrepôt de données » désigne l'ensemble des composants qui fonctionnent conjointement pour fournir à une organisation une capacité globale de stockage de données. De nombreux éditeurs de logiciels commerciaux proposent des systèmes d'entrepôt de données, disponibles à la fois en version sur site hébergée dans le cloud. Un système d'entrepôt de données se compose généralement d'une ou plusieurs bases de données, d'outils permettant d'effectuer l'extraction, la transformation et le chargement (ETL) à partir des systèmes sources, Fonctionnalités gestion des schémas de données et du dictionnaire de données, ainsi que d'outils permettant de publier les données vers des data marts et des systèmes consommateurs.
Exemples d'entrepôts de données
Il existe aujourd'hui de nombreux exemples d'entreprises qui utilisent des entrepôts de données. En voici quelques-uns parmi les plus courants :
Entrepôt de données commerciales
Un entrepôt de données spécialisé contenant des informations sur les activités commerciales et marketing d'une entreprise. Il comprendrait généralement des données telles que les informations clients, les transactions commerciales, les campagnes marketing, les avis et commentaires des clients, ainsi que des données sur la concurrence. Les équipes commerciales et marketing utilisent directement cet entrepôt de données commerciales pour la génération de prospects et le ciblage de la clientèle, mais aussi pour d'autres fonctions de l'entreprise, telles que la gestion des produits, le développement de nouvelles offres et les projections de croissance du chiffre d'affaires réalisées par les équipes financières.
Entrepôt de données de production
Les entreprises qui gèrent des processus de fabrication complexes, des opérations logistiques et des chaînes externalisé disposent souvent d'un entrepôt de données dédié, destiné à regrouper toutes les données relatives à leurs opérations de fabrication en un seul et même endroit à des fins de reporting. Cela leur permet de réaliser des analyses approfondies, par exemple pour identifier des problèmes de qualité ou des opportunités d'amélioration des performances, sans perturber les processus de fabrication qui doivent utiliser des systèmes transactionnels. Les entreprises disposant de chaînes externalisé ont également souvent recours à des entrepôts de données de fabrication pour regrouper les données provenant de plusieurs fournisseurs sans avoir à développer de nombreuses intégrations point à point entre les systèmes ERP.
Entrepôt de données d'entreprise
Les grandes entreprises choisissent souvent de centraliser leurs archives de données dans un entrepôt de données d'entreprise unique, qui regroupe les données issues des systèmes et processus informatiques de l'ensemble de l'organisation. Bien que la mise en place et l'exploitation d'un entrepôt de données d'entreprise puissent s'avérer coûteuses, ce type de solution offre les meilleures chances d'identifier des informations exploitables qui transcendent les fonctions métier et les frontières organisationnelles. Un entrepôt de données d'entreprise peut également permettre à une entreprise de conserver ses données à long terme, ce qui peut s'avérer nécessaire pour se conformer à la réglementation. Les données peuvent être stockées dans l'entrepôt de données d'entreprise même après que les systèmes sources ont été retirés du service et mis hors service.
Entrepôt de données ou base de données ?
Les bases de données constituent un élément essentiel de votre entrepôt de données, mais ces deux termes ne sont pas interchangeables. Une base de données est le terme générique désignant un système de stockage dans lequel on enregistrement , qui sont utilisées à de nombreuses fins, notamment pour le traitement des transactions, le soutien des fonctionnalités des applications et la génération de rapports. Les bases de données comprennent, par exemple, les bases de données OLTP (bases de données d'application), OLAP (utilisées dans les entrepôts de données), les fichiers XML, CSV, les fichiers texte et les feuilles de calcul. La plupart des bases de données sont limitées à une application, un processus métier ou un objectif spécifique. Une base de données conçue pour traiter des transactions n'est pas structurée pour effectuer correctement des analyses.
En comparaison, un entrepôt de données est un ensemble spécialisé de Fonctionnalités extraire des données de systèmes transactionnels et Fonctionnalités les stocker dans un type spécifique de base de données, organisée et optimisée pour support l'analyse support et la création de rapports. Un entrepôt de données type comprend plusieurs bases de données qui stockent les données à différents niveaux de transformation, notamment les bases de données sources, les magasins de données opérationnelles, la base de données centrale de l'entrepôt de données et des data marts spécialisés qui présentent aux utilisateurs des vues filtrées des données.
Avantages d'un entrepôt de données
Les entreprises mettent en place des entrepôts de données pour diverses raisons, allant du besoin d'informations stratégiques sur l'activité à la résolution de problèmes tactiques liés à l'agrégation et à la conservation des données. En général, les entrepôts de données offrent les avantages suivants :
- Intégrer des données provenant de plusieurs sources dans un modèle de données unique – Cet avantage une importance particulière pour les entreprises qui utilisent des logiciels prêts à l'emploi ou des solutions SaaS dotés de leur propre modèle de données, qui ne peut être personnalisé pour s'aligner sur les normes de l'entreprise. L'entrepôt de données offre un espace où les incohérences entre les modèles de données des différents systèmes sources peuvent être harmonisées afin de dresser un tableau complet des ressources de données de l'entreprise.
- Offrir un point d'accès unique aux données – L'accès aux données provenant des nombreux systèmes sources utilisés au sein d'une entreprise peut s'avérer à la fois coûteux et fastidieux pour les utilisateurs. Un entrepôt de données permet de regrouper les données en un seul et même endroit, où elles peuvent être organisées et présentées aux utilisateurs de manière à faciliter leur utilisation.
- Conserver l'historique des données sans ralentir les systèmes sources – Au fur et à mesure que les processus métier se déroulent, ils génèrent en permanence de nouvelles données. Avec le temps, le volume de ces nouvelles données commence à ralentir les systèmes transactionnels. En transférant les données vers un entrepôt de données, il est possible de purger les systèmes sources des anciennes données afin de préserver l'efficacité du traitement transactionnel.
- Offrir une vue d'ensemble centralisée à l'échelle de l'entreprise – La plupart des services d'une organisation ont tendance à se montrer protecteurs vis-à-vis des données qu'ils génèrent, souhaitant contrôler et restreindre l'accès à ces données ainsi que leur utilisation. Bien que cela puisse s'avérer judicieux dans certains cas (comme pour les secrets commerciaux), une grande partie des données produites au sein d'une entreprise peut potentiellement créer de la valeur dans d'autres secteurs de l'organisation. L'entrepôt de données offre un espace commun où en silo fonctionnellement en silo peuvent être rassemblées pour donner une vue d'ensemble des données de l'entreprise, ce qui fournit souvent des informations utiles aux dirigeants pour prendre des décisions d'investissement et élaborer leur planification stratégique.
- Nettoyer et harmoniser les données ambiguës et en double – Il est très rare que les données provenant de différents systèmes sources s'intègrent parfaitement et sans heurts. Le plus souvent, lorsque vous collectez des données, vous rencontrez des conflits, des lacunes, des redondances et des informations manquantes qui doivent être corrigés pour que l'ensemble de données combiné puisse être utilisé efficacement à des fins d'analyse. Ces différences peuvent être intentionnelles et répondre à des besoins métier, mais lorsqu'elles sont utilisées dans le cadre de la création de rapports, elles peuvent prêter à confusion. L'entrepôt de données offre aux entreprises la possibilité d'appliquer des règles métier pour résoudre les problèmes de qualité des données sans avoir à modifier les systèmes sources.
- Surveillance et contrôle centralisés pour garantir le respect des politiques d'accès et d'utilisation des données – gouvernance des données gouvernance le contrôle des personnes au sein de l'organisation autorisées à accéder aux données et à les utiliser constituent des éléments essentiels pour optimiser la valeur des actifs de données d'une entreprise. Étant donné qu'un entrepôt de données offre un dépôt centralisé dépôt données provenant de l'ensemble de l'entreprise, il constitue également le lieu idéal pour mettre en œuvre des politiques d'accès aux données.
- Évitez les répercussions sur les performances liées à l'interrogation des systèmes transactionnels à des fins de reporting – Les requêtes analytiques sont souvent très complexes et mobilisent d'importantes ressources de traitement. L'exécution de requêtes analytiques et de rapports sur des systèmes transactionnels peut entraîner des problèmes de latence au niveau utilisateur et ralentir les flux de travail métier. Les entrepôts de données offrent un environnement distinct où les requêtes analytiques peuvent s'exécuter en toute sécurité sans affecter les performances des bases de données sources ni celles des applications qui s'appuient sur elles.
- Organiser les données de manière à ce qu'elles soient compréhensibles pour les utilisateurs métier – Les systèmes transactionnels disposent de structures de données optimisées pour les performances des applications et des processus métier qu'ils support, et non pour être facilement comprises par les utilisateurs. Les entrepôts de données et les data marts permettent de réorganiser, de cataloguer et de décrire les données d'une entreprise d'une manière compréhensible pour les utilisateurs métier, et facilitent ainsi la recherche des données dont ils ont besoin pour prendre des décisions.
Actian et la plateforme d'intelligence des données
La plateformeActianData Intelligencea été spécialement conçue pour aider les organisations à unifier, gérer et comprendre leurs données dans des environnements hybrides. Elle regroupe métadonnées , gouvernance, la traçabilité, le contrôle de la qualité et l'automatisation au sein d'une seule et même plateforme. Cela permet aux équipes de savoir d'où proviennent les données, comment elles sont utilisées et si elles répondent aux exigences internes et externes.
Grâce à son interface centralisée, Actian offre insight en temps réel insight les structures et les flux de données, ce qui facilite l'application des politiques, la résolution des problèmes et la collaboration entre les services. La plateforme aide également à replacer les données dans leur contexte métier, permettant ainsi aux équipes de les exploiter de manière plus efficace et responsable. La plateforme Actian est conçue pour s'adapter à l'évolution des écosystèmes de données, garantissant une utilisation cohérente, intelligente et sécurisée des données à l'échelle de l'entreprise.Demandez votre démonstration personnalisée.
FAQ
A data warehouse is a repository of historical data organized by subject to support decision-makers in an organization. It aggregates data from multiple source systems into a centralized place where it can be accessed for reporting and analytics.
A database is a general-purpose storage system used for transaction processing and application support, while a data warehouse is a specialized system optimized for analysis and reporting. A typical data warehouse actually includes multiple databases storing data at different levels of transformation.
ETL stands for Extract, Transform, and Load, and it is the process used to move data from source systems into the data warehouse. It involves copying data from source systems, leaving the originals intact, then refining and organizing the data to remove quality issues before it is used for analysis.
A data warehouse stores data from across an entire organization, while a data mart is a simplified, subject-focused subset of that data curated for a specific department or audience. Data marts are typically refreshed nightly and may have up to 24 hours of latency.
Data warehouses integrate data from multiple sources into a single model, maintain historical data without slowing source systems, and enable centralized analytics without impacting the performance of transactional applications. They also provide a governed environment for enforcing data access policies across the enterprise.
An EDW is a data warehouse designed to support an entire company rather than a single function, bridging across business units, locations, and fragmented IT systems. It can also support long-term data retention for regulatory compliance, even after source systems have been retired.
An ODS is the part of a data warehouse that holds aggregated raw data from transactional and operational systems before it is translated and summarized. Companies often maintain it separately from data marts to give analysts direct access to the underlying source data.
Actian’s Data Intelligence Platform is purpose-built to help organizations unify, manage, and understand their data across hybrid environments. It brings together metadata management, governance, data lineage, quality monitoring, and automation in a single scalable platform.