Pourquoi la plateforme Data Lakehouse est-elle importante ?
Si vous stockez tous les ensembles de données dans un seul dépôt sans descriptions adéquates, celui-ci se transforme rapidement en un marécage de données inutilisées. Les ensembles de données ont besoin d'informations descriptives telles que des métadonnées qui permettent aux utilisateurs de trouver, d'utiliser et finalement de faire confiance aux données. Maintenir les lacs de données et les entrepôts de données en silos est inefficace car les données doivent être déplacées vers l'entrepôt de données pour être analysées. La combinaison de ces deux fonctions distinctes au sein d'une plateforme unifiée de lac de données permet de rationaliser les pipelines de données et d'offrir un accès plus immédiat aux données de dépôt .
Qui utilise la plateforme Data Lakehouse ?
Les ingénieurs de données utilisent le Lakehouse pour préparer les données pour les scientifiques de données qui analysent les données à l'aide de l'entrepôt de données intégré. Les analystes de données et les citoyens analystes de données peuvent utiliser le data lakehouse grâce aux métadonnées qui facilitent la recherche, l'accès et la mise en relation des ensembles de données.
Quelles sont les composantes de la plateforme Lakehouse ?
Stockage des données
Le data lakehouse stocke une grande variété de types de données. Les ensembles de données peuvent être des tables de base de données pour les données structurées et semi-structurées, plates, structurées et non structurées.
Catalogue des métadonnées
Les métadonnées de l'entrepôt de données étiquettent et décrivent les différents ensembles de données afin d'en faciliter la localisation et l'utilisation.
Connecteurs de données
Les données structurées de la base de données sont faciles d'accès à l'aide d'un langage de requête structuré (SQL). Les données semi-structurées, non structurées et propriétaires nécessitent des connecteurs tels que Spark pour y accéder.
Accéder aux API
Les outils d'informatique décisionnelle (BI) pour l'analyse des données et les programmes d'application nécessitent des interfaces de programmation d'application (API) pour accéder aux données stockées dans le lac de données. Il peut s'agir de SQL, REST et ODBC, par exemple.
Comment une plateforme Data Lakehouse se compare-t-elle à un Data Mesh et à un Data Fabric ?
Les lacs de données étaient une idée très en vogue il y a dix ans. Ils apparaissaient comme une évolution de l'entrepôt de données centralisé de l'entreprise car ils permettaient de stocker davantage de types de données, telles que des vidéos, des transcriptions, des images de grande taille et des fichiers audio. Cependant, les entreprises ont découvert que le simple fait de collecter des données sans les cataloguer de manière adéquate les transformait en une décharge de données.
Le data lakehouse est une approche plus récente qui vise à créer un dépôt plus utilisable qu'un data lake qui profile les données et les documente pour les rendre plus susceptibles d'être utilisées.
La structure de données maintient les données distribuées, en fournissant une interface utilisateur virtuelle unique et centralisée, avec une propriété et une gestion centralisées des données.
Un maillage de données utilise un ensemble fédéré de services de produits de données spécifiques à un domaine, avec une gestion et une propriété des données au niveau du domaine. Le maillage de données est un modèle pair-à-pair avec des domaines partageant des données horizontalement.
Intégrité des données
Le maintien de l'intégrité des données est important, ce qui signifie que les données doivent adhérer aux propriétés d'atomicité, de cohérence, d'isolement et de durabilité (ACID). Les relations entre les données doivent être exprimées en indiquant les valeurs clés afin d'éviter que les résultats des requête jointure ne soient trompeurs. Les modifications apportées aux ensembles de données doivent être contrôlées et gérées afin de maintenir l'intégrité des données et d'éviter la corruption des données logiques.
Qualité des données et gouvernance
La qualité des données est un avantage important d'une bonne gouvernance données. Les données doivent être actualisées et mises à jour afin de garantir que les erreurs sont corrigées et nettoyées. Des données de haute qualité deviennent des données fiables.
Avantages d'une plateforme de stockage de données (Data Lakehouse)
Le concept de data lakehouse a gagné en popularité grâce aux nombreux avantages énumérés ci-dessous :
- Les organisations peuvent utiliser le data lakehouse pour extraire plus de valeur de leurs données existantes.
- Les utilisateurs du data lakehouse bénéficient d'une qualité de données supérieure à celle d'un data lake car les données sont profilées afin d'obtenir des informations sur leur volume, leur actualité et leur précision.
- Le centre de données peut mettre en œuvre la gouvernance données.
- Le dépôt centralisé peut renforcer la sécurité en prenant en charge l'accès basé sur les rôles.
- Un lac de données est plus facile à administrer et utilise les ressources plus efficacement que les magasins de données distribués.
- La plateforme Data Lakehouse favorise l'analyse en libre-service en fournissant un catalogue et des métadonnées pour aider les utilisateurs à trouver les bons ensembles de données pour leur analyse.
- La bonne technologie de base de données peut améliorer considérablement les vitesses d'accès aux données par rapport à un lac de données.
- Contrairement à un lac de données, différents ensembles de données peuvent être reliés les uns aux autres dans un lac de données.
- L'apprentissage automatique bénéficie d'un entrepôt de données en ce sens que des ensembles de données complets peuvent être exploités au lieu des sous-ensembles ou des agrégations que l'on trouve habituellement dans un entrepôt de données traditionnel.
Créer un lac de données avec Actian
La plateforme de données Actian facilite la création d'une base de données qui peut être déployée sur site, sur AWS, Azure et Google Cloud. L'analyse de données de la plateforme Actian utilise un moteur de base de données à traitement vectoriel en colonnes pour des requête rapides. Les données peuvent être centralisées ou distribuées grâce à des requêtes qui peuvent s'étendre sur plusieurs instances de base de données.
Les fonctions d'intégration de données intégrées permettent de profiler les données, d'automatiser les étapes de préparation des données et de support sources de données en continu. Les fonctionnalités d'intégration de données intégrées à la plateforme de données Actian comprennent un connecteur Spark pour accéder aux données non structurées et travailler avec les structures de stockage de données les plus courantes, notamment les buckets S3, les dossiers Google Drive et le stockage Azure Blob.