Intelligence des données

Comment un catalogue de données renforce-t-il les principes du maillage des données ?

Actian Corporation

2 novembre 2022

Introduction : Qu'est-ce que le Data Mesh ?

De plus en plus conscientes de l'importance de leurs données, les entreprises repensent leurs stratégies commerciales afin de libérer tout le potentiel de leur patrimoine informationnel. Le défi du stockage des données a progressivement conduit à l'émergence de différentes solutions : data marts, data warehouses, data lakes, pour permettre l'absorption de volumes de données de plus en plus importants. L'objectif ? Centraliser leur patrimoine de données pour le mettre à la disposition du plus grand nombre afin de casser les silos de l'entreprise..

Cependant, les entreprises ont encore du mal à répondre à leurs besoins. La vitesse de production et de transformation des données et leur complexité croissante (nature, origine, etc.) mettent à rude épreuve les capacités d'évolutivité d'une organisation aussi centralisée. Ces données centralisées se transforment en un océan d'informations où les équipes de gestion des données ne peuvent pas répondre efficacement aux demandes de l'entreprise et où seules quelques équipes d'experts peuvent le faire.

Ceci est d'autant plus vrai dans un contexte où les entreprises sont le résultat de fusions, de rachats ou sont organisées en filiales. La construction d'une vision et d'une organisation communes à toutes les entités peut s'avérer complexe et chronophage.

C'est dans cette optique que Zhamak Dehghani a développé le concept de "Data Mesh", proposant un changement de paradigme dans la gestion des données analytiques, avec une approche décentralisée.

Le Data Mesh n'est en effet pas une solution technologique mais plutôt un objectif commercial, une "étoile polaire" comme l'appelle Mick Lévy, qu'il faut suivre pour relever les défis auxquels les entreprises sont confrontées dans le contexte actuel :

  • Répondre à la complexité, à la volatilité et à l'incertitude de l'entreprise.
  • Maintenir l'agilité face à la croissance.
  • Accélérer la production de valeur, proportionnellement à l'investissement.

Comment le catalogue de données facilite la mise en œuvre d'une approche par maillage de données

L'objectif d'un catalogue de données est de cartographier toutes les données de l'entreprise et de les mettre à la disposition des équipes techniques et commerciales afin de faciliter leur exploitation, la collaboration autour de leurs utilisations et ainsi, de maximiser et d'accélérer la création de valeur pour l'entreprise.

Dans une organisation comme Data Mesh, où les données sont stockées à différents endroits et gérées par différentes équipes, le défi d'un catalogue de données est d'assurer un point d'accès central à toutes les ressources de données de l'entreprise.

Mais pour ce faire, le catalogue de données doit support quatre principes fondamentaux de la maille de données, à savoir

  • Propriété des données en fonction du domaine.
  • Les données en tant que produit.
  • Plate-forme de données en libre-service.
  • gouvernance informatique fédérée.

Propriété du domaine

Le premier principe de Data Mesh est de décentraliser les responsabilités en matière de données.. L'entreprise doit d'abord définir des domaines d'activité, de manière plus ou moins granulaire, en fonction de son contexte et de ses cas d'utilisation (par exemple, la production, la distribution, la logistique, etc.)

Chaque domaine devient alors responsable des données qu'il produit. Ils gagnent en autonomie pour gérer et valoriser plus facilement les volumes croissants de données. La qualité des données est notablement améliorée, tirant parti de toute expertise métier au plus près de la source.

Cette approche remet en cause la pertinence d'un système centralisé de Master gestion des données offrant un modèle unique de données, exhaustif mais par conséquent complexe à comprendre pour les consommateurs de données et difficile à maintenir dans le temps.

Via le catalogue de données, les équipes métiers peuvent s'appuyer sur celui-ci pour créer un inventaire de leurs données et décrire leur périmètre métier à travers un modèle orienté par les usages spécifiques de chaque domaine.

Cette modélisation doit être accessible via un glossaire métier associé au catalogue de données. Ce glossaire métier, tout en restant une source unique de vérité, doit permettre de refléter les différentes facettes des données en fonction des usages et des besoins de chaque domaine.

Par exemple, si le concept de "produit" est familier à l'ensemble de l'entreprise, ses attributs n'auront pas le même intérêt s'il est utilisé pour la logistique, la conception ou la vente.

Un glossaire commercial basé sur les graphes sera donc plus approprié en raison de sa flexibilité et de ses capacités de modélisation et d'exploration. flexibilité et des capacités de modélisation et d'exploration qu'il offre par rapport à une approche hiérarchique prédéfinie. Tout en assurant la cohérence globale de cette couche sémantique à travers l'entreprise, un glossaire métier basé sur un graphe permet aux gestionnaires de données de mieux prendre en compte les spécificités de leurs domaines respectifs.

Le catalogue de données doit donc permettre aux différents domaines de collaborer à la définition et à la maintenance du métamodèle et de la documentation de leurs actifs, afin d'en assurer la qualité.

Pour ce faire, le catalogue de données doit également offrir un système de gestion des autorisations adapté, afin de permettre une répartition des responsabilités sans ambiguïté et de permettre à chaque gestionnaire de domaine de prendre en charge la documentation de son champ d'application.

Les données en tant que produit

Le deuxième principe du Data Mesh est de considérer les données non pas comme un actif, mais comme un produit ayant sa propre expérience et son propre cycle de vie. produit avec sa propre expérience d'utilisateur et son propre cycle de vie.. L'objectif est d'éviter de recréer des silos dans l'entreprise en raison de la décentralisation des responsabilités.

Chaque domaine est responsable de la mise à disposition d'un ou plusieurs produits de données aux autres domaines. Mais au-delà de cet objectif d'entreprise, considérer les données comme un produit permet d'avoir une approche centrée sur les attentes et les besoins des utilisateurs finauxqui sont ceux qui consomment les données ? dans quel(s) format(s) les utilisateurs utilisent-ils les données ? avec quels outils ? comment mesurer la satisfaction des utilisateur ?

En effet, avec une approche centralisée, les entreprises répondent aux besoins des utilisateurs professionnels et se développent plus lentement. Data Mesh contribuera donc à la diffusion de la culture des données en réduisant les étapes à franchir pour exploiter les données.

Selon Zhamak Dehghani, un produit de données doit répondre à différents critères, et le catalogue de données permet de répondre à certains d'entre eux :

À découvrir : La première étape pour un analyste de données, un scientifique des données ou tout autre consommateur de données est de savoir quelles données existent et quels types d'informations ils peuvent exploiter. Le catalogue de données aborde cette question grâce à un moteur de recherche intelligent qui prend en compte la recherche par mot-clé, les erreurs de frappe ou de syntaxe, les suggestions intelligentes et les capacités de filtrage avancées. Le catalogue de données doit également offrir des parcours d'exploration personnalisés afin de mieux promouvoir les différents produits de données. Enfin, l'expérience de recherche et de navigation dans le catalogue doit être simple et basée sur les standards du marché tels que Google ou Amazon, afin de faciliter l'intégration des utilisateurs non techniques.

Compréhensibles : Les données doivent être facilement comprises et consommées. C'est aussi l'une des missions du catalogue de données: fournir tout le contexte nécessaire à la compréhension des données. Cela comprend une description, des concepts commerciaux associés, une classification, des relations avec d'autres produits de données, etc. Les domaines d'activité peuvent utiliser le catalogue de données pour rendre les consommateurs aussi autonomes que possible dans la compréhension de leurs produits de données. Un plus serait l'intégration avec des outils de données ou des bacs à sable pour mieux comprendre le comportement des données.

La confiance : Les consommateurs doivent avoir confiance dans les données qu'ils utilisent. Là encore, le catalogue de données jouera un rôle important. Un catalogue de données n'est pas un outil de qualité des données, mais les indicateurs de qualité doivent pouvoir être récupérés et mis à jour automatiquement dans le catalogue de données afin de les exposer aux utilisateurs (exhaustivité, fréquence de mise à jour, etc.). Le catalogue de données doit également pouvoir fournir des informations statistiques sur les données ou reconstituer la lignée des données, pour en comprendre l'origine et les différentes transformations au cours du temps.

Accessible de manière native : Un produit de données doit être livré dans le format attendu par les différents personas (analystes de données, data scientists, etc.). Un même produit de données peut donc être livré dans plusieurs formats, en fonction des usages et des compétences des utilisateurs ciblés. Il doit également pouvoir s'interfacer facilement avec les outils qu'ils utilisent. Sur ce point, le catalogue n'a cependant pas de rôle particulier à jouer.

Valable : L'une des clés du succès d'un produit de données est qu'il puisse être consommé indépendamment, qu'il ait une signification en soi. Il doit être conçu de manière à limiter la nécessité de s'associer à d'autres produits de données, afin d'offrir une valeur mesurable à ses consommateurs.

Adressable : Une fois que le consommateur a trouvé le produit de données dont il a besoin dans le catalogue, il doit pouvoir y accéder ou en demander l'accès d'une manière simple, facile et efficace. Pour ce faire, le catalogue de données doit pouvoir se connecter à des systèmes d'application des politiques qui facilitent et accélèrent l'accès aux données en automatisant une partie du travail.

Sécuriser : Ce point est lié au précédent. Les utilisateurs doivent pouvoir accéder aux données facilement mais en toute sécurité, conformément aux politiques définies pour les droits d'accès. Là encore, l'intégration du catalogue de données avec une solution d'application des politiques facilite cet aspect.

Interopérables : Afin de faciliter les échanges entre les domaines et d'éviter, une fois de plus, les silos, les produits de données doivent répondre aux normes définies au niveau de l'entreprise pour consommer facilement tout type de produit de données et les intégrer les uns aux autres. Le catalogue de données doit pouvoir partager les métadonnées du produit de données pour interconnecter les domaines par le biais d'API.

Infrastructure de données en libre-service

Dans une organisation Data Mesh, les domaines d'activité sont responsables de la mise à disposition des produits de données à l'ensemble de l'entreprise. Mais pour atteindre cet objectif, les domaines doivent disposer de services qui facilitent cette mise en œuvre et automatisent au maximum les tâches de gestion : Ces services doivent rendre les domaines aussi indépendants que possible des équipes d'infrastructure.

Dans une organisation décentralisée, cette couche de services permettra également de réduire les coûts, notamment ceux liés à la charge de travail des ingénieurs de données, des ressources difficiles à trouver.

Le catalogue de données fait partie de cette couche d'abstraction, permettant aux domaines d'activité d'inventorier facilement les sources de données dont ils sont responsables. Pour ce faire, le catalogue doit lui-même offrir une large gamme de connecteurs qui support les différentes technologies utilisées (stockage, transformation, etc.) par les domaines et automatisent autant que possible les tâches de curation.

Grâce à des API faciles à utiliser, le catalogue de données permet également aux domaines de synchroniser facilement leurs référentiels métiers ou techniques, de connecter leurs outils de gestion de la qualité, etc.

gouvernance informatique fédérée

Data Mesh offre une approche décentralisée de la gestion des données où les domaines acquièrent une certaine souveraineté. Cependant, la mise en œuvre d'une gouvernance fédérée garantit la cohérence globale des règles de gouvernance , l'interopérabilité des produits de données et la surveillance à l'échelle du Data Mesh.

Le Data Office agit plus comme un facilitateur, transmettant les principes et les politiques de gouvernance , que comme un contrôleur. En effet, le CDO n'est plus responsable de la qualité ou de la sécurité, mais de la définition de ce qui constitue la qualité, la sécurité, etc. responsable de la définition de ce qui constitue la qualité, la sécurité, etc.. Les responsables de domaine prennent le relais localement pour l'application de ces principes.

Ce changement de paradigme est possible grâce à l'automatisation de l'application des politiques de gouvernance . L'application de ces politiques est ainsi accélérée par rapport à une approche centralisée car elle se fait au plus près de la source.

Le catalogue de données peut être utilisé pour partager les principes et les politiques de gouvernance qui peuvent être documentés ou répertoriés dans le catalogue, et liés aux produits de données auxquels ils s'appliquent. Il fournira également des métadonnées aux systèmes responsables de l'automatisation de la mise en place des règles et des politiques.

Conclusion

Dans un environnement de données de plus en plus complexe et changeant, Data Mesh fournit une réponse socio-architecturale alternative aux approches centralisées qui peinent à s'adapter et à répondre aux besoins des entreprises en matière de qualité des données et de réactivité.

Le catalogue de données joue un rôle central dans cette organisation, en fournissant un portail d'accès central pour la découverte et le partage des produits de données à travers l'entreprise, en permettant aux domaines d'activité de gérer facilement leurs produits de données, et en fournissant les métadonnées pour automatiser les politiques nécessaires à la gouvernance fédérée.

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.