Architecture des données

Qu'est-ce qu'un lac de données ?

trouver une abondance d'informations dans un lac de données

Lacs de données : L'avenir de la gestion des données pour les entreprises

Au début de l'année 2000, VMWare a permis aux organisations de virtualiser leurs serveurs (calcul) et leur stockage (entrepôts de données). Il fallait encore financer le coût des licences et l'impact sur le réseau était important, mais la virtualisation de l'informatique offrait un répit jusqu'à l'avènement de l'informatique en nuage. Grâce à l'infrastructure et aux outils de l'informatique en nuage, vous n'avez plus besoin de maintenir ni même de connaître la quantité de calcul et de stockage nécessaire à un moment donné.

L'informatique en nuage s'étendait de manière flexible et la capacité à héberger des données était largement inférieure à l'architecture que l'on trouve dans la plupart des centres de données d'entreprise. Cela a donné lieu à l'adoption rapide de nouvelles infrastructures de lac de données basées sur des fournisseurs de cloud, comme Amazon (AWS data lake), Microsoft (Azure data lake) et Google (Google Cloud), lorsqu'elles ont été introduites.

Il faut savoir qu'un entrepôt de données conserve la même taille une fois qu'il est construit. Si votre entrepôt de données est trop grand, vous devez en construire un plus grand, ce qui prend du temps et de l'argent. L'informatique dématérialisée vous permet d'ajouter ou de supprimer des environnements ou des applications entiers en quelques minutes et à un coût minime. De plus, la plupart des modèles de tarification de l'informatique en nuage sont basés sur l'utilisation du calcul et non du stockage ! Imaginez que vous construisiez un entrepôt de données en grande quantité et que vous ne soyez facturé que lorsque vous y entrez et que vous faites quelque chose avec ce qu'il contient. L'analogie est valable pour l'informatique en nuage.

Ce qui manquait, c'était un moyen d'héberger tous les différents types de données disponibles au fur et à mesure que l'internet prenait de l'importance. L'IdO, l'audio, les blogs, les vlogs, les nouvelles, les flux de données en temps réel, tout cela devait être consommé par les organisations pour rester à jour et pertinent. Les entrepôts de données ne pouvant être conçus assez rapidement, la définition du lac de données a été introduite par James Dixon en 2010; considérez-le comme un moyen de mettre fin aux silos de données en créant un pool d'informations provenant de n'importe quelle source requise sur la technologie cloud telle que AWS et Azure. Les données ne sont plus extraites, transformées et chargées dans vos applications, mais extraites, chargées et transformées à votre demande.

analyse des données big data, recherche plein texte, utilisation en temps réel, apprentissage automatique et intelligence artificielle sont autant de résultats des lacs de données. Les données sont le produit principal de toute organisation. La façon dont vous gérez et manipulez les données assurera votre survie, votre conformité, votre compétitivité, votre résilience et votre rentabilité. Les entrepôts de données constituaient la stratégie originale de stockage de l'information : vous saviez ce que vous aviez, à quoi cela ressemblait et qui l'utilisait pour quoi, le tout sur l'infrastructure que vous gériez. Mais l'espace manquait jusqu'à ce que le cloud et la virtualisation sur une infrastructure de base peu coûteuse apparaissent, tout comme les lacs de données Google, les lacs de données AWS ou les lacs de données Azure. Désormais, vous pouvez augmenter ou diminuer l'échelle en fonction de vos besoins, ajouter n'importe quel format de données et utiliser une pléthore d'outils pour vous aider à analyser les données afin de prendre des décisions rapides en période d'incertitude (COVID19) ou simplement pour vous permettre de rester pertinent, compétitif, sécurisé et conforme aux normes.

En 2017, Aberdeen a réalisé une étude qui a montré que les entreprises qui utilisaient des lacs de données dépassaient leurs concurrents de 9 %. Comme nous le verrons, la création et l'utilisation de lacs de données comportent des mises en garde, mais les avantages l'emportent clairement sur les risques.

Qu'est-ce qu'un entrepôt de données ?

Pour comprendre les lacs de données, il faut remonter à 1992, lorsque Ralph Kimball et Bill Inmon ont inventé le terme "entrepôt de données" pour décrire les règles et les schémas qui allaient régir les données pendant les deux décennies suivantes. Les données pouvaient être organisées dans des marts ou des classeurs, puis placées logiquement dans un entrepôt de données pour garantir la sécurité et la simplicité d'utilisation. La gestion des données par l'entreprise est devenue une stratégie au niveau du conseil d'administration, car ce que vous saviez et quand vous le saviez s'avérait important.

La définition d'un entrepôt de données donnée par Wikipedia met en évidence son utilisation et ses faiblesses : "des dépôts centraux de données intégrées provenant d'une ou de plusieurs sources disparates. Ils stockent des données actuelles et historiques et sont utilisés pour créer des rapports sur les tendances à l'intention des cadres supérieurs, par exemple pour des comparaisons annuelles et trimestrielles. Comme pour un entrepôt, le gardien (sécurité de l'application) permet à la personne autorisée de avantage des données de l'entrepôt. Mais, et c'est là la faiblesse de l'entrepôt, il faut quelqu'un pour façonner les données dans ce format utile. Les outils seuls n'étaient d'aucune utilité pour l'utilisateur ordinaire utilisateurentreprise.

Lac de données ou entrepôt de données

Les principales différences entre un entrepôt de données et un lac de données sont présentées dans le tableau ci-dessous. Bien qu'elles ne soient pas exhaustives, ces différences devraient vous aider à comprendre que les données sont une exigence stratégique pour les dirigeants. Une mauvaise gestion des données peut entraîner un risque de réputation, des amendes et l'insolvabilité.

Un exemple de lac de données : Le marketing veut savoir quels clients utilisent les réseaux sociaux et dans quelle mesure, mais il a également besoin de connaître leur historique d'achat et, si possible, les produits qu'ils ont refusés ou retournés. En outre, le marketing veut connaître le taux d'attrition des clients, leur fidélité, les clients qui ont bénéficié de récompenses et l'impact sur l'entreprise. En utilisant des entrepôts de données, les développeurs devraient extraire des informations de plusieurs sources pour construire le rapport, mais les informations des réseaux sociaux s'avéreraient les plus difficiles, si elles étaient même possibles à lire et à utiliser. Toutes ces informations pourraient être facilement trouvées dans un lac de données, et l'équipe marketing, à l'aide d'un outil comme Tableau, pourrait créer le rapport en quelques heures.

En réalité, vous aurez besoin et utiliserez à la fois des entrepôts et des lacs. Vous pouvez décider de diviser votre entrepôt de données en marts de données (classeurs pour les RH ou les finances, par exemple) et de les jeter dans votre lac, mais vous vous apercevrez que vous avez besoin des deux. La question n'est pas celle de l'architecture, mais celle de l'objectif. Les requêtes standard rapides et reproductibles avantage un avantage un entrepôt de données. L'analyse et la modélisation, lorsque les sources de données sont disparates, nécessitent un lac de données.

Architecture du lac de données

L'utilisation d'analogies est un bon moyen de comprendre les différences entre les entrepôts de données et les lacs de données. Un entrepôt est construit dans un but précis et selon une conception spécifique, ce qui permet à chaque élément d'être à sa place après avoir été approuvé pour le stockage. Des termes tels que "relationnel", "extraction, transformation et chargement" ou "en écriture" sont associés aux entrepôts de données. Les développeurs se rendent dans l'entrepôt de données approprié, y trouvent ce dont ils ont besoin, l'utilisent si l'accès est approuvé et créent les informations pertinentes pour l'entreprise. S'ils ont besoin de modifier les données, cela dépend si l'entrepôt de données peut être utilisé ou si un nouvel entrepôt de données doit être construit. Il en va de même pour l'ajout de données, car les entrepôts ne s'agrandissent pas automatiquement.

Lac Red Data

Les lacs, quant à eux, changent de forme à cause d'un nouveau cours d'eau ou d'une nouvelle source d'eau, rétrécissent si le cours d'eau s'assèche, voire se transforment en marais si le lac se remplit d'ordures ou de mauvaises herbes. Un lac de données peut évoluer à la hausse ou à la baisse en fonction des sources de données et de ce qui est créé et stocké dans le lac. Aucune programmation n'est nécessaire pour ce faire, car l'infrastructure en nuage offre naturellement cette capacité si vous payez pour ce service. Les lacs de données peuvent également devenir des marécages de données corrompues, d'où la nécessité d'être vigilant.

Dans un entrepôt de données, tous les schémas permettant d'utiliser les données doivent être créés par des développeurs qui comprennent la structure des données et l'utilisation prévue. Dans un lac de données, la variété des données est rendue utilisable par une variété d'outils d'analyse et de modélisation. Un analyste de données est peut-être mieux placé pour assurer une gestion appropriée des informations, mais on peut dire que tout utilisateur agréé peut tirer avantage des données du lac. D'où les termes "charger" et "transformer". Des termes tels que "fluide", "étiqueté pour l'utilisation", "catalogue", " exploration de données" et "on-read" sont associés aux lacs de données.

Architecture technique

Dans le nuage, les données sont stockées sur une infrastructure de base pour les entrepôts de données et les lacs de données. La principale différence réside dans le fait que vous avez besoin d'un type de logiciel spécifique pour interroger, analyser et produire les informations demandées au lac. L'ensemble de logiciels le plus important conçu à cette fin est le logiciel lac de données Hadoop qui utilise HDFS (Hadoop Distributed File System) ou une série d'étiquettes placées dans des catalogues qui marquent chaque donnée avec ce qu'elle est, d'où elle vient, la date de création, etc. YARN (Yet Another Resource Manager) et MapReduce, qui englobent la programmation Hadoop, support analyse et la modélisation de n'importe quelle source de données. Il existe aujourd'hui une longue liste d'autres outils plus ou moins sophistiqués.

  • SLA à haute disponibilité (l'entrepôt doit être planifié).
  • Les données sont masquées et cryptées (pas toujours dans un entrepôt).
  • Les outils automatisés de surveillance et d'alerte en cas d'utilisation ou d'accès illégal sont nombreux.
  • Nécessite un apprentissage sur la sécurité et les aspects réglementaires des données pour les développeurs et les utilisateurs.
  • Si dans le nuage, évolutif haut/bas.
  • Technologie agnostique : Spark, Hive, MapReduce, HBase, Storm, Kafka, et R-Server.

AWS, Azure et Google Data Lakes

Des lacs de données commerciaux sont disponibles auprès de Google, Amazon et Microsoft. Bien que d'autres options deviennent disponibles chaque jour, ces entreprises ont commencé leurs options de cloud avec des lacs de données à l'esprit. Pour tirer parti de ces architectures de lacs de données, la plateforme de données Actian a été conçue dès le départ pour offrir des performances élevées et une grande évolutivité dans toutes les dimensions - volume de données, nombre d'utilisateur simultanés et complexité des requête . plateforme de données Actian est une véritable plateforme hybride qui peut être déployée sur site ainsi que sur plusieurs clouds, y compris AWS, Azure et Google Cloud, ce qui permet à une organisation de migrer ou de décharger des applications et des données vers le cloud à son propre rythme.