Comment un catalogue de données renforce-t-il les principes du Data Mesh?

actian data mesh et catalogue de données

Résumé

Data Mesh pas un produit technologique, mais une approche organisationnelle décentralisée de la gestion des données analytiques.
Elle repose sur quatre principes fondamentaux : la propriété des domaines, les données en tant que produit, une infrastructure de données en libre-service et gouvernance fédérée.
Un catalogue de données Data Mesh offrant aux équipes un moyen centralisé de découvrir, de documenter et de gérer data products distribués.
Cela contribue également à rendre data products faciles à trouver, data products compréhensibles, data products fiables et plus accessibles.
Dans un Data Mesh , le catalogue devient une couche essentielle pour la collaboration, métadonnées et gouvernance les différents domaines.

Introduction : Qu'est-ce que le Data Mesh?

De plus en plus conscientes de l'importance de leurs données, les entreprises repensent leurs stratégies commerciales afin de libérer tout le potentiel de leur patrimoine informationnel. Le défi du stockage des données a progressivement conduit à l'émergence de différentes solutions : data marts, data warehouses, data lakes, pour permettre l'absorption de volumes de données de plus en plus importants. L'objectif ? Centraliser leur patrimoine de données pour le mettre à la disposition du plus grand nombre afin de casser les silos de l'entreprise..

Cependant, les entreprises peinent toujours à répondre aux besoins opérationnels. La rapidité de production et de transformation des données, ainsi que la complexité croissante de celles-ci (nature, origine, etc.), mettent à rude épreuve lesFonctionnalités évolutivité Fonctionnalités telle organisation centralisée. Ces données centralisées se transforment en un océan d'informations dans lequel gestion des données ne parviennent pas à répondre efficacement aux demandes de l'entreprise, seules quelques équipes d'experts y parvenant.

Ceci est d'autant plus vrai dans un contexte où les entreprises sont le résultat de fusions, de rachats ou sont organisées en filiales. La construction d'une vision et d'une organisation communes à toutes les entités peut s'avérer complexe et chronophage.

C'est dans cette optique que Zhamak Dehghani a développé le concept de "Data Mesh"proposant un changement de paradigme dans la gestion des données analytiques, avec une approche décentralisée.

Data Mesh n'est en effet pas une solution technologique mais plutôt un objectif commercial, une "étoile polaire" comme l'appelle Mick Lévy, qu'il faut suivre pour relever les défis auxquels les entreprises sont confrontées dans le contexte actuel :

Répondre à la complexité, à la volatilité et à l'incertitude de l'entreprise.
Maintenir l'agilité face à la croissance.
Accélérer la production de valeur, proportionnellement à l'investissement.

Comment le catalogue de données facilite la mise en œuvre d'une approche par Data Mesh

L'objectif d'un catalogue de données est de cartographier toutes les données de l'entreprise et de les mettre à la disposition des équipes techniques et commerciales afin de faciliter leur exploitation, la collaboration autour de leurs utilisations et ainsi, maximiser et accélérer la création de valeur pour l'entreprise.

Dans une organisation comme Data Mesh, où les données sont stockées à différents endroits et gérées par différentes équipes, le défi d'un catalogue de données est d'assurer un point d'accès central à toutes les ressources de données de l'entreprise.

Mais pour ce faire, le catalogue de données doit support quatre principes fondamentaux de la Data Mesh , à savoir

Propriété des données en fonction du domaine.
Les données en tant que produit.
Plate-forme de données en libre-service.
gouvernance informatique fédérée.

Propriété du domaine

Le premier principe de Data Mesh est de décentraliser les responsabilités en matière de données.. L'entreprise doit d'abord définir des domaines d'activité, de manière plus ou moins granulaire, en fonction de son contexte et de ses cas d'utilisation (par exemple, la production, la distribution, la logistique, etc.)

Chaque domaine devient alors responsable des données qu'il produit. Ils gagnent en autonomie pour gérer et valoriser plus facilement les volumes croissants de données. La qualité des données est notablement améliorée, tirant parti de toute expertise métier au plus près de la source.

Cette approche remet en cause la pertinence d'un système centralisé de Master gestion des données offrant un modèle unique de données, exhaustif mais par conséquent complexe à comprendre pour les consommateurs de données et difficile à maintenir dans le temps.

Via le catalogue de données, les équipes métiers peuvent s'appuyer sur celui-ci pour créer un inventaire de leurs données et décrire leur périmètre métier à travers un modèle orienté par les usages spécifiques de chaque domaine.

Cette modélisation doit être accessible via un glossaire métier associé au catalogue de données. Ce glossaire métier, tout en restant une source unique de vérité, doit permettre de refléter les différentes facettes des données en fonction des usages et des besoins de chaque domaine.

Par exemple, si le concept de « produit » est bien connu de l'ensemble de l'entreprise, ses caractéristiques ne présenteront pas le même intérêt selon qu'il soit utilisé dans le domaine de la logistique, de la conception ou de la vente.

Un glossaire d'entreprise sous forme de graphe sera donc plus approprié en raison de sa flexibilité et des Fonctionnalités de modélisation et d’exploration qu'il offre par rapport à une approche hiérarchique prédéfinie. Tout en garantissant la cohérence globale cohérence cette couche sémantique à l'échelle de l'entreprise, un glossaire métier basé sur un graphe permet aux gestionnaires de données de mieux prendre en compte les spécificités de leurs domaines respectifs.

Le catalogue de données doit donc permettre aux différents domaines de collaborer à la définition et à la maintenance du métamodèle et de la documentation de leurs actifs, afin d'en assurer la qualité.

Pour ce faire, le catalogue de données également disposer d'un système de gestion des autorisations adapté, afin de permettre une répartition claire des responsabilités et de permettre à chaque gestionnaire de domaine de prendre en charge la documentation relevant de son domaine de compétence.

Les données en tant que produit

Le deuxième principe du Data Mesh est de considérer les données non pas comme un actif, mais comme un produit ayant sa propre expérience et son propre cycle de vie. produit avec sa propre expérience d'utilisateur et son propre cycle de vie.. L'objectif est d'éviter de recréer des silos dans l'entreprise en raison de la décentralisation des responsabilités.

Chaque domaine est chargé de mettre un ou plusieurs data products des autres domaines. Mais au-delà de cet objectif d'entreprise, considérer les données comme un produit nous permet d'adopter une approche centrée sur les attentes et les besoins des utilisateurs finaux: qui sont ceux qui consomment les données ? Sous quel(s) format(s) les utilisateurs exploitent-ils les données ? Avec quels outils ? Comment mesurer utilisateur ?

En effet, avec une approche centralisée, les entreprises répondent aux besoins des utilisateurs professionnels et se développent plus lentement. Data Mesh contribuera donc à la diffusion de la culture des données en réduisant les étapes à franchir pour exploiter les données.

Selon Zhamak Dehghani, un produit de données doit répondre à différents critères, et le catalogue de données lui catalogue de données d'en remplir certains :

Accessibilité : La première étape pour un analyste de données, un data scientist ou tout autre utilisateur de données consiste à savoir quelles données existent et quels types d'informations ils peuvent en tirer. Le catalogue de données ce besoin grâce à un moteur de recherche intelligent qui permet la recherche par mot-clé, la saisie manuelle ou la correction des erreurs de syntaxe, des suggestions intelligentes et Fonctionnalités de filtrage avancées. Le catalogue de données également proposer des parcours d'exploration personnalisés afin de mieux mettre en avant les différents data products. Enfin, l'expérience de recherche et de navigation dans le catalogue doit être simple et s'appuyer sur les standards du marché tels que Google ou Amazon, afin de faciliter l'intégration des utilisateurs non techniques.

Compréhensibles : Les données doivent être facilement comprises et consommées. C'est aussi l'une des missions du catalogue de données: fournir tout le contexte nécessaire à la compréhension des données. Cela comprend une description, des concepts commerciaux associés, une classification, des relations avec d'autres data products, etc. Les domaines d'activité peuvent utiliser le catalogue de données pour rendre les consommateurs aussi autonomes que possible dans la compréhension de leurs data products. Un plus serait l'intégration avec des outils de données ou des bacs à sable pour mieux comprendre le comportement des données.

Fiabilité : Les consommateurs doivent pouvoir se fier aux données qu'ils utilisent. Là encore, le catalogue de données un rôle important. Un catalogue de données pas un outil de qualité des données, mais les indicateurs de qualité doivent pouvoir être récupérés et mis à jour automatiquement dans le catalogue de données être mis à la disposition des utilisateurs (exhaustivité, fréquence de mise à jour, etc.). Le catalogue de données également être capable de fournir des informations statistiques sur les données ou de retracer leur traçabilité afin de comprendre leur origine et les différentes transformations subies au fil du temps.

Accessible de manière native : Un produit de données doit être livré dans le format attendu par les différents personasdata analysts, data scientists, etc.). Un même produit de données peut donc être livré dans plusieurs formats, en fonction des usages et des compétences des utilisateurs ciblés. Il doit également pouvoir s'interfacer facilement avec les outils qu'ils utilisent. Mais sur ce point, le catalogue n'a pas de rôle particulier à jouer.

Valable : L'une des clés du succès d'un produit de données est qu'il puisse être consommé indépendamment, qu'il ait une signification en soi. Il doit être conçu de manière à limiter la nécessité de s'associer à d'autres data products, afin d'offrir une valeur mesurable à ses consommateurs.

Accessibilité : Une fois que l'utilisateur a trouvé le produit de données dont il a besoin dans le catalogue, il doit pouvoir y accéder ou en demander l'accès de manière simple, facile et efficace. Pour ce faire, le catalogue de données pouvoir s'interfacer avec des systèmes d'application des politiques qui facilitent et accélèrent l'accès aux données en automatisant une partie du travail.

Sécuriser : Ce point est lié au précédent. Les utilisateurs doivent pouvoir accéder aux données facilement mais en toute sécurité, conformément aux politiques définies pour les droits d'accès. Là encore, l'intégration du catalogue de données avec une solution d'application des politiques facilite cet aspect.

Interopérables : Afin de faciliter les échanges entre les domaines et d'éviter, une fois de plus, les silos, les data products doivent répondre aux normes définies au niveau de l'entreprise pour consommer facilement tout type de produit de données et les intégrer les uns aux autres. Le catalogue de données doit pouvoir partager les métadonnées du produit de données pour interconnecter les domaines par le biais d'API.

Infrastructure de données en libre-service

Dans une organisation Data Mesh , les domaines d'activité sont responsables de la mise à disposition des data products à l'ensemble de l'entreprise. Mais pour atteindre cet objectif, les domaines doivent disposer de services qui facilitent cette mise en œuvre et automatisent au maximum les tâches de gestion : Ces services doivent rendre les domaines aussi indépendants que possible des équipes d'infrastructure.

Dans une organisation décentralisée, cette couche de services permettra également de réduire les coûts, notamment ceux liés à la charge de travail des ingénieurs de données, des ressources difficiles à trouver.

Le catalogue de données partie intégrante de cette couche d'abstraction, permettant aux domaines métier de répertorier facilement les sources de données dont ils ont la responsabilité. Pour ce faire, le catalogue doit lui-même proposer un large éventail de connecteurs support différentes technologies utilisées (stockage, transformation, etc.) par les domaines métier et automatiser autant que possible les tâches de gestion des données.

Grâce à des API faciles à utiliser, le catalogue de données permet également aux domaines de synchroniser facilement leurs référentiels métiers ou techniques, de connecter leurs outils de gestion de la qualité, etc.

gouvernance informatique fédérée

Data Mesh une approche décentralisée de gestion des données les domaines bénéficient d'une certaine autonomie. Cependant, la mise en place d'une gouvernance fédérée gouvernance la cohérence globale cohérence gouvernance , l'interopérabilité des data products et la surveillance à l'échelle du Data Mesh.

Le Bureau des données joue davantage un rôle de facilitateur, chargé de diffuser gouvernance et les politiques gouvernance , que celui d'un contrôleur. En effet, le CDO n'est plus responsable de la qualité ou de la sécurité, mais il est chargé de définir ce qui constitue la qualité, la sécurité, etc. Les responsables de domaine prennent le relais au niveau local pour l'application de ces principes.

Ce changement de paradigme est possible grâce à l'automatisation de l'application des politiques de gouvernance . L'application de ces politiques est ainsi accélérée par rapport à une approche centralisée car elle se fait au plus près de la source.

Le catalogue de données de partager gouvernance et des politiques gouvernance qui peuvent être documentés ou répertoriés dans le catalogue, et associés aux data products ils s'appliquent. Il fournira également métadonnées systèmes chargés d'automatiser la mise en place des règles et des politiques.

Conclusion

Dans un environnement de données de plus en plus complexe et changeant, Data Mesh fournit une réponse socio-architecturale alternative aux approches centralisées qui peinent à s'adapter et à répondre aux besoins des entreprises en matière de qualité des données et de réactivité.

Le catalogue de données un rôle central au sein de cette organisation : il constitue un portail d'accès centralisé permettant de rechercher et de partager data products l'entreprise, et permet aux différents secteurs d'activité de gérer facilement leurs data products de fournir les métadonnées l'automatisation des politiques requises pour gouvernance fédérée.

À propos de l'auteur