La maison des données (Data Lakehouse)

Les données de SaaS sont plus que des formes et des graphiques sur l'image d'une femme dans la technologie

Un data lakehouse combine le dépôt stockage de données d'un lakehouse avec un entrepôt de données intégré pour le traitement analytique. Des métadonnées et un catalogue de données qui décrit les ensembles de données et leurs interrelations relient le data lake et l'entrepôt de données.

Pourquoi le Data Lakehouse est-il important ?

Avant le développement du data lakehouse, les lacs de données et les entrepôts de données existaient en silos. Les utilisateurs avaient du mal à trouver les données dont ils avaient besoin sans métadonnées et sans catalogue de données. Cela a conduit à la sous-utilisation des entrepôts de données et des lacs de données qui alimentaient les entrepôts de données. Les ingénieurs de données déplaçaient les données des lacs vers les entrepôts à l'aide de pipelines complexes d'extraction et de transformation (ETL). Une fois unifiées, les données sont mieux utilisées, ce qui permet à l'entreprise de tirer davantage de valeur de ses données.

Qui sont les utilisateurs ?

Les principaux utilisateurs sont les ingénieurs et les scientifiques des données. Grâce aux métadonnées de qualité, les analystes de données peuvent également l'utiliser car ils peuvent trouver plus facilement des données à analyser.

Quels sont les éléments clés d'un Data Lakehouse ?

Stockage

Ils contiennent des données structurées stockées dans une base de données sous forme de tableaux et des formats de données semi-structurés tels que les chaînes JSON. Les fichiers plats stockent des données non structurées telles que des flux vidéo, audio et texte.

catalogue de données

Le catalogue de données stocke des métadonnées qui décrivent le format des données, le lignage des étiquettes, etc.

Connecteurs de données

Les connecteurs de données permettent d'accéder à toutes les sources de données.

API

Les applications, les utilitaires et les outils d'informatique décisionnelle (BI) utilisent des interfaces de programmation d'applications (API) pour accéder aux données qu'il contient.

Établir l'intégrité des données

L'entrepôt de données utilise des clés primaires et étrangères pour maintenir la cohérence des relations entre les données, de sorte que lorsque vous modifiez des données à un endroit, ces modifications sont reflétées dans d'autres enregistrements liés. Les données contenues dans un système de fichiers reposent sur des règles de nettoyage des données, de validation et de transformation pour déterminer si les valeurs NULL sont valides. Les analyses de validation peuvent détecter une corruption logique des données.

Data gouvernance

Il aide à la gouvernance données en indiquant qui est responsable des données, en contrôlant la fraîcheur des données et en évaluant leur degré d'autorité.

Qualité des données

La qualité des données garantit que les utilisateurs peuvent s'y fier. La qualité des données mesure dans quelle mesure un jeu de données répond aux critères d'exactitude, d'exhaustivité, de validité, de cohérence, d'unicité, d'actualité et d'adéquation à l'objectif.

Avantages du Data Lakehouse

Il offre de nombreux avantages, dont les suivants :

  • L'entreprise tire davantage de valeur des données documentées à l'aide de métadonnées , car les utilisateurs peuvent les trouver et les utiliser.
  • Il est plus accessible qu'un lac de données parce que le lac de données fournit un contexte sur la façon dont les différents ensembles de données sont liés.
  • Il favorise une meilleure gouvernance données, ce qui améliore la conformité et réduit les risques.
  • Les contrôles d'accès basés sur les rôles (RBAC) aident à protéger les données dans le lac de données.
  • Il centralise l'administration par rapport aux magasins de données fédérés et distribués.
  • Le data lakehouse favorise l'analyse libre-service grâce au catalogue de données intégré.
  • Contrairement à un lac de données, le data lakehouse dispose d'un catalogue de données de données qui documente la façon dont les différents ensembles de données sont reliés entre eux.
  • L'apprentissage machine (ML) permet souvent de faire de meilleures prédictions en utilisant un entrepôt de données (data lakehouse) qui stocke des ensembles de données complets.

Actian et le Data Lakehouse

La plateforme de données Actian facilite la création d'un data lakehouse de de haute performance . Sa base de données intégrée en colonnes et vectorisée utilise une capacité de requête parallèle supérieure à celle d'un entrepôt de données traditionnel.

La plateforme de données Actian prend en charge l'hybride et le multicloud avec des déploiements sur site, AWS, Azure et Google Cloud. La base de données vectorielle peut accéder à des données stockées dans des systèmes de fichiers à l'aide de son connecteur Spark et peut accéder à plusieurs instances de bases de données distribuées en une seule requête.

Les fonctions d'intégration de données intégrées permettent de profiler les données, d'automatiser les étapes de préparation des données et de support sources de données en continu. Les fonctionnalités d'intégration de données offertes par la plateforme de données Actian fonctionnent avec les structures de stockage de données les plus courantes, notamment les buckets S3, les dossiers Google Drive et le stockage Azure Blob.