Architecture des données

Qu'est-ce qu'un lac de données ?

trouver une abondance d'informations dans un lac de données

Lacs de données : L'avenir de la gestion des données pour les entreprises

Au début de l'année 2000, VMWare a permis aux organisations de virtualiser leurs serveurs (calcul) et leur stockage (entrepôts de données). Il fallait encore financer le coût des licences et l'impact sur le réseau était important, mais la virtualisation de l'informatique offrait un répit jusqu'à l'avènement de l'informatique en nuage. Grâce à l'infrastructure et aux outils de l'informatique en nuage, vous n'avez plus besoin de maintenir ni même de connaître la quantité de calcul et de stockage nécessaire à un moment donné.

L'informatique en nuage s'étendait de manière flexible et la capacité à héberger des données était largement inférieure à l'architecture que l'on trouve dans la plupart des centres de données d'entreprise. Cela a donné lieu à l'adoption rapide de nouvelles infrastructures de lac de données basées sur des fournisseurs de cloud, comme Amazon (AWS data lake), Microsoft (Azure data lake) et Google (Google Cloud), lorsqu'elles ont été introduites.

Il faut savoir qu'un entrepôt de données conserve la même taille une fois qu'il est construit. Si votre entrepôt de données est trop grand, vous devez en construire un plus grand, ce qui prend du temps et de l'argent. L'informatique dématérialisée vous permet d'ajouter ou de supprimer des environnements ou des applications entiers en quelques minutes et à un coût minime. De plus, la plupart des modèles de tarification de l'informatique en nuage sont basés sur l'utilisation du calcul et non du stockage ! Imaginez que vous construisiez un entrepôt de données en grande quantité et que vous ne soyez facturé que lorsque vous y entrez et que vous faites quelque chose avec ce qu'il contient. L'analogie est valable pour l'informatique en nuage.

Ce qui manquait, c'était un moyen d'héberger tous les différents types de données disponibles au fur et à mesure que l'internet prenait de l'importance. L'IdO, l'audio, les blogs, les vlogs, les nouvelles, les flux de données en temps réel, tout cela devait être consommé par les organisations pour rester à jour et pertinent. Les entrepôts de données ne pouvant être conçus assez rapidement, la définition du lac de données a été introduite par James Dixon en 2010; considérez-le comme un moyen de mettre fin aux silos de données en créant un pool d'informations provenant de n'importe quelle source requise sur la technologie cloud telle que AWS et Azure. Les données ne sont plus extraites, transformées et chargées dans vos applications, mais extraites, chargées et transformées à votre demande.

analyse des données big data, recherche plein texte, utilisation en temps réel, apprentissage automatique et intelligence artificielle sont autant de résultats des lacs de données. Les données sont le produit principal de toute organisation. La façon dont vous gérez et manipulez les données assurera votre survie, votre conformité, votre compétitivité, votre résilience et votre rentabilité. Les entrepôts de données constituaient la stratégie originale de stockage de l'information : vous saviez ce que vous aviez, à quoi cela ressemblait et qui l'utilisait pour quoi, le tout sur l'infrastructure que vous gériez. Mais l'espace manquait jusqu'à ce que le cloud et la virtualisation sur une infrastructure de base peu coûteuse apparaissent, tout comme les lacs de données Google, les lacs de données AWS ou les lacs de données Azure. Désormais, vous pouvez augmenter ou diminuer l'échelle en fonction de vos besoins, ajouter n'importe quel format de données et utiliser une pléthore d'outils pour vous aider à analyser les données afin de prendre des décisions rapides en période d'incertitude (COVID19) ou simplement pour vous permettre de rester pertinent, compétitif, sécurisé et conforme aux normes.

En 2017, Aberdeen a réalisé une étude qui a montré que les entreprises qui utilisaient des lacs de données dépassaient leurs concurrents de 9 %. Comme nous le verrons, la création et l'utilisation de lacs de données comportent des mises en garde, mais les avantages l'emportent clairement sur les risques.

Qu'est-ce qu'un entrepôt de données ?

Pour comprendre les lacs de données, il faut remonter à 1992, lorsque Ralph Kimball et Bill Inmon ont inventé le terme "entrepôt de données" pour décrire les règles et les schémas qui allaient régir les données pendant les deux décennies suivantes. Les données pouvaient être organisées dans des marts ou des classeurs, puis placées logiquement dans un entrepôt de données pour garantir la sécurité et la simplicité d'utilisation. La gestion des données par l'entreprise est devenue une stratégie au niveau du conseil d'administration, car ce que vous saviez et quand vous le saviez s'avérait important.

La définition d'un entrepôt de données donnée par Wikipedia met en évidence son utilisation et ses faiblesses : "des dépôts centraux de données intégrées provenant d'une ou de plusieurs sources disparates. Ils stockent des données actuelles et historiques et sont utilisés pour créer des rapports sur les tendances à l'intention des cadres supérieurs, par exemple pour des comparaisons annuelles et trimestrielles. Comme pour un entrepôt, le gardien (sécurité de l'application) permet à la personne autorisée de avantage des données de l'entrepôt. Mais, et c'est là la faiblesse de l'entrepôt, il faut quelqu'un pour façonner les données dans ce format utile. Les outils seuls n'étaient d'aucune utilité pour l'utilisateur ordinaire utilisateurentreprise.

Lac de données ou entrepôt de données

Les principales différences entre un entrepôt de données et un lac de données sont présentées dans le tableau ci-dessous. Bien qu'elles ne soient pas exhaustives, ces différences devraient vous aider à comprendre que les données sont une exigence stratégique pour les dirigeants. Une mauvaise gestion des données peut entraîner un risque de réputation, des amendes et l'insolvabilité.

Un exemple de lac de données : Le marketing veut savoir quels clients utilisent les réseaux sociaux et dans quelle mesure, mais il a également besoin de connaître leur historique d'achat et, si possible, les produits qu'ils ont refusés ou retournés. En outre, le marketing veut connaître le taux d'attrition des clients, leur fidélité, les clients qui ont bénéficié de récompenses et l'impact sur l'entreprise. En utilisant des entrepôts de données, les développeurs devraient extraire des informations de plusieurs sources pour construire le rapport, mais les informations des réseaux sociaux s'avéreraient les plus difficiles, si elles étaient même possibles à lire et à utiliser. Toutes ces informations pourraient être facilement trouvées dans un lac de données, et l'équipe marketing, à l'aide d'un outil comme Tableau, pourrait créer le rapport en quelques heures.

En réalité, vous aurez besoin et utiliserez à la fois des entrepôts et des lacs. Vous pouvez décider de diviser votre entrepôt de données en marts de données (classeurs pour les RH ou les finances, par exemple) et de les jeter dans votre lac, mais vous vous apercevrez que vous avez besoin des deux. La question n'est pas celle de l'architecture, mais celle de l'objectif. Les requêtes standard, rapides et reproductibles, avantage un avantage un entrepôt de données. L'analyse et la modélisation, où les sources de données sont disparates, nécessitent un lac de données.

Architecture du lac de données

L'utilisation d'analogies est un bon moyen de comprendre les différences entre les entrepôts de données et les lacs de données. Un entrepôt est construit dans un but précis et selon une conception spécifique, ce qui permet à chaque élément d'être à sa place après avoir été approuvé pour le stockage. Des termes tels que "relationnel", "extraction, transformation et chargement" ou "en écriture" sont associés aux entrepôts de données. Les développeurs se rendent dans l'entrepôt de données approprié, y trouvent ce dont ils ont besoin, l'utilisent si l'accès est approuvé et créent les informations pertinentes pour l'entreprise. S'ils doivent modifier les données, il faut alors déterminer si l'entrepôt de données peut être utilisé ou si un nouvel entrepôt de données doit être construit. Il en va de même pour l'ajout de données, car les entrepôts ne s'agrandissent pas automatiquement.

Les lacs, quant à eux, changent de forme à cause d'un nouveau cours d'eau ou d'une nouvelle source d'eau, rétrécissent si le cours d'eau s'assèche, voire se transforment en marécage si le lac se remplit d'ordures ou de mauvaises herbes. Un lac de données peut évoluer à la hausse ou à la baisse en fonction des sources de données et de ce qui est créé et stocké dans le lac. Aucune programmation n'est nécessaire pour ce faire, car l'infrastructure en nuage dispose naturellement de cette capacité si vous payez pour ce service. Les lacs de données peuvent également devenir des marécages de données corrompues, d'où la nécessité de faire preuve de prudence.

Dans un entrepôt de données, tous les schémas permettant d'utiliser les données doivent être créés par des développeurs qui comprennent la structure des données et l'utilisation prévue. Dans un lac de données, la variété des données est rendue utilisable par une variété d'outils d'analyse et de modélisation. Un analyste de données peut être mieux placé pour assurer une gestion appropriée des informations, mais on peut affirmer que tout utilisateur approuvé peut tirer avantage des données du lac. D'où les termes "charger" et "transformer". Des termes tels que "fluide", "étiqueté pour l'utilisation", "catalogue", " exploration de données" et "on-read" sont associés aux lacs de données.

Architecture technique

Dans le nuage, les données sont stockées sur une infrastructure de base pour les entrepôts de données et les lacs de données. La principale différence réside dans le fait que vous avez besoin d'un type de logiciel spécifique pour interroger, analyser et produire les informations demandées au lac. L'ensemble de logiciels le plus important conçu à cette fin est le logiciel lac de données Hadoop qui utilise HDFS (Hadoop Distributed File System) ou une série d'étiquettes placées dans des catalogues qui marquent chaque donnée avec ce qu'elle est, d'où elle vient, la date de sa création, etc. YARN (Yet Another Resource Manager) et MapReduce, qui englobent la programmation Hadoop, support analyse et la modélisation de n'importe quelle source de données. Il existe aujourd'hui une longue liste d'autres outils plus ou moins sophistiqués.

  • SLA à haute disponibilité (l'entrepôt doit être planifié).
  • Les données sont masquées et cryptées (pas toujours dans un entrepôt).
  • Les outils automatisés de surveillance et d'alerte en cas d'utilisation ou d'accès illégal sont nombreux.
  • Nécessite un apprentissage sur la sécurité et les aspects réglementaires des données pour les développeurs et les utilisateurs.
  • Si dans le nuage, évolutif haut/bas.
  • Technologie agnostique : Spark, Hive, MapReduce, HBase, Storm, Kafka, et R-Server.

Actian et la plate-forme d'intelligence des données

Actian Data Intelligence Platform est conçue pour aider les entreprises à unifier, gérer et comprendre leurs données dans des environnements hybrides. Elle rassemble la gestion des métadonnées , la gouvernance, le lignage, le contrôle de la qualité et l'automatisation en une seule plateforme. Les équipes peuvent ainsi savoir d'où viennent les données, comment elles sont utilisées et si elles répondent aux exigences internes et externes.

Grâce à son interface centralisée, Actian offre une insight en temps réel des structures et des flux de données, ce qui facilite l'application des politiques, la résolution des problèmes et la collaboration entre les services. La plateforme aide également à relier les données au contexte commercial, ce qui permet aux équipes d'utiliser les données de manière plus efficace et plus responsable. La plateforme d'Actian est conçue pour s'adapter à l'évolution des écosystèmes de données, favorisant une utilisation cohérente, intelligente et sécurisée des données dans l'ensemble de l'entreprise. Demandez votre démo personnalisée.