A data mesh est une architecture permettant de démocratiser les données au sein d'une entreprise. Contrairement aux entrepôts de données centralisés, un data mesh fédère les données et délègue la propriété des données aux domaines spécialisés de l'entreprise, qui publient leurs données en tant que service pour que toutes les fonctions de l'entreprise puissent les utiliser. Il en résulte une architecture de données plus agile qui laisse aux différentes unités commerciales une certaine autonomie dans la gestion de leurs données de base.
Pourquoi utiliser une architecture de Data Mesh ?
L'idée principale derrière les architectures maillées est de permettre une architecture de données plus flexible et évolutif . Les entrepôts de données d'entreprise monolithiques et centralisés peuvent être lourds à mettre en œuvre, peu flexibles et coûteux à modifier. En confiant la conservation et l'administration d'ensembles de données spécifiques à un domaine aux fonctions de l'entreprise qui les connaissent le mieux, l'entreprise peut mieux s'adapter à l'évolution des conditions commerciales.
L'une des principales raisons pour lesquelles le modèle de data mesh est évolutif est qu'il évite de surcharger les équipes centralisées chargées des données. Cela se fait en propageant les meilleures pratiques standard dans tous les domaines de l'entreprise. Le manque de compétences est une cause fréquente de stagnation des projets de big data et de lac de données, qui se transforment en marécages de données. Les compétences acquises par le personnel dans un domaine d'activité sont facilement transférables à d'autres domaines, ce qui réduit les temps d'apprentissage et permet de livrer les projets plus rapidement.
Maintenir l'interopérabilité entre les pools de données
Un élément essentiel d'un data mesh est le bus d'interopérabilité universel intégré sur lequel se branchent tous les entrepôts de données ou marges de données spécifiques à un domaine. Cela permet d'éviter les problèmes liés aux entrepôts de données traditionnels en silo qui utilisent souvent des données en double, désynchronisées et des outils ad hoc. Les données conservées par un département sont mises à la disposition des unités commerciales concernées. Chaque entrepôt de données départemental publie ses données en tant que produit sur le bus d'interopérabilité.
En quoi un Data Mesh est-il différent d'un Data Fabric ?
Un data mesh est composé d'un ensemble interconnecté de services de produits de données spécifiques à un domaine, dont les responsabilités en matière de propriété sont déléguées aux différents domaines d'une entreprise. Un tissu de données crée un système centralisé virtuel unique sans propriété distribuée des données.
Éléments clés d'un Data Mesh
Les principaux composants d'un data mesh sont les suivants
- Sources des données.
- Infrastructure de données.
- Services de données spécifiques à un domaine.
- gouvernance standardisée partagée, qualité des données et conventions de métadonnées .
Propriété des données et responsabilités
Chaque propriétaire de données d'un domaine accepte les niveaux de service de ses pairs en matière de qualité et de disponibilité des données. Chaque domaine utilise des normes centralisées pour les pipelines de données. Le data mesh fournit une infrastructure standardisée de stockage et de streaming . Les pipelines ETL peuvent être spécifiques à un domaine, mais doivent utiliser des étiquettes métadonnées standard, des formats de données, des conventions de catalogage, de lignage et de gouvernance données pour faciliter l'interopérabilité et promouvoir la conformité.
Bénéfices
Parmi les nombreux avantages des architectures de data mesh , on peut citer les suivants :
- Délai de rentabilisation plus court pour les projets axés sur les données.
- Les lignes d'activité peuvent réagir rapidement aux pressions de la concurrence, de la réglementation et du marché ou aux opportunités d'explorer de nouveaux marchés.
- Les outils, normes et processus partagés avantage l'ensemble de l'entreprise en augmentant l'efficacité et en réduisant la duplication des efforts.
- Évite les goulots d’étranglement au niveau des ressources centrales en déléguant les responsabilités en matière de données aux domaines d'activité spécialisés qui comprennent le mieux leurs besoins en matière de données.
- Des services de données plus modulaires sont plus faciles à comprendre et à utiliser. Comme pour les microservices, la refonte des applications monolithiques en composants plus petits et plus digestes facilite leur partage et leur utilisation.
- L'application cohérente des exigences en matière de qualité et de gouvernance données dans l'ensemble de l'entreprise améliore la coopération et facilite les futurs efforts d'intégration des données.
- La transparence des données et des processus dans le maillage élimine les pools départementaux de données non connectées et en silo .
- Les entreprises tirent davantage de valeur de leurs données, car la fédération de celles-ci au sein de l'organisation permet une meilleure prise de décision fondée sur les données.
Quelles sont les caractéristiques d'un produit de données réussi ?
Le facteur de réussite le plus important pour un produit de données est son adoption. Les caractéristiques qui favorisent l'adoption sont la découvrabilité, la fiabilité, la confiance, la sécurité et la qualité des données.
Étant donné qu'un data mesh est essentiellement un modèle de libre-service , les données publiées doivent être faciles à trouver, bien documentées et faciles à consommer. Les consommateurs peuvent fournir un retour d'information aux propriétaires de domaines sur la qualité et l'utilité d'un produit de données afin de s'assurer que les lacunes sont corrigées et de permettre une amélioration continue.
Gestion du Data Mesh
Les Data products et les pipelines doivent être supervisés au niveau du domaine et de l'infrastructure afin de garantir des niveaux de disponibilité élevés et de remédier aux défaillances. La surveillance et l'observabilité Fonctionnalités sont donc conçues pour faciliter la vie des développeurs et des équipes d'infrastructure.
Les Data products doivent être protégés par le chiffrement des données au repos et en mouvement. Le versionnage des services de données permet de revenir sur les mauvais déploiements.
Actian et la plate-forme d'intelligence des données
Actian Data Intelligence Platform est conçue pour aider les entreprises à unifier, gérer et comprendre leurs données dans des environnements hybrides. Elle rassemble la gestion des métadonnées , la gouvernance, le lignage, le contrôle de la qualité et l'automatisation en une seule plateforme. Les équipes peuvent ainsi savoir d'où viennent les données, comment elles sont utilisées et si elles répondent aux exigences internes et externes.
Grâce à son interface centralisée, Actian offre une insight en temps réel des structures et des flux de données, ce qui facilite l'application des politiques, la résolution des problèmes et la collaboration entre les services. La plateforme aide également à relier les données au contexte commercial, ce qui permet aux équipes d'utiliser les données de manière plus efficace et plus responsable. La plateforme d'Actian est conçue pour s'adapter à l'évolution des écosystèmes de données, favorisant une utilisation cohérente, intelligente et sécurisée des données dans l'ensemble de l'entreprise. Demandez votre démo personnalisée.
Les trois composantes d'un produit de données
Code
y compris les pipelines de données, les politiques et les interfaces d'application.
Données et métadonnées
peut inclure des tableaux, des vues, des graphiques et les métadonnées associées.
Infrastructure
comprend des scripts permettant de construire et d'instancier un service de produit de données.
FAQ
Un data mesh est une architecture de données décentralisée qui traite les données comme un produit et distribue la propriété des jeux de données à des équipes spécifiques à un domaine. Au lieu de dépendre d'une seule plateforme de données centralisée, chaque domaine gère, gouverne et sert ses propres data products haute qualité.
Les architectures traditionnelles centralisent l'ingénierie des données, les pipelines et la gouvernance au sein d'une seule équipe, ce qui crée souvent des goulots d’étranglement. Un data mesh distribue ces responsabilités aux équipes de domaine, permettant un accès plus rapide à des données fiables et réduisant les goulots d’étranglement opérationnels dans l'ensemble de l'organisation.
Les quatre principes fondamentaux sont les suivants
- Propriété des données orientée vers un domaine.
- Les données en tant que produit.
- Infrastructure de données en libre-service en tant que plateforme.
- gouvernance informatique fédérée.
Les grandes entreprises ayant de nombreux domaines, des équipes distribuées ou des environnements de données qui évoluent rapidement sont les plus avantage . Le Data mesh est idéal lorsque les équipes centrales chargées des données sont surchargées et que les unités opérationnelles ont besoin d'un accès plus rapide aux données régies et spécifiques à un domaine.