Le voyage vers le Data Mesh - Partie 2 - Mise en place d'une équipe et d'une plateforme de données
Actian Corporation
15 avril 2024

Bien que la littérature sur le maillage des données soit abondante, elle décrit souvent un état final, mais rarement la manière d'y parvenir dans la pratique. La question se pose alors :
Quelle approche adopter pour transformer la gestion des données et mettre en place un maillage de données ?
Dans cette série d'articles, vous trouverez un extrait de notre Guide pratique du maillage de données, dans lequel nous proposons une approche pour lancer un parcours de maillage de données dans votre organisation, structurée autour des quatre principes du maillage de données (propriété et architecture de données décentralisées orientées vers le domaine, données en tant que produit, infrastructure de données en libre-service en tant que plateforme, et gouvernance informatique fédérée) et en tirant parti des ressources humaines et technologiques existantes.
- Partie 1 : Déterminer la portée de votre projet pilote
- Partie 2 : Mise en place d'une équipe de développement et d'une plate-forme de données pour le projet pilote
- Partie 3 : Création de vos premiers produits de données
- Partie 4 : Mise en œuvre de la gouvernance informatique fédérée
Tout au long de cette série d'articles, et afin d'illustrer cette approche pour construire les bases d'un maillage de données réussi, nous nous appuierons sur un exemple : celui de l'entreprise fictive Premium Offices - une société d'immobilier d'entreprise dont l'activité consiste à acquérir des biens immobiliers pour les louer à des entreprises.
Dans l'article précédent, nous avons abordé les conditions essentielles pour définir la portée de votre projet pilote de décentralisation de la gestion des données , en identifiant les domaines et en sélectionnant un cas d'usage. Dans cet article, nous expliquons comment mettre en place son équipe de développement et sa plateforme de données.
Constitution de l'équipe de développement du pilote
Comme nous l'avons mentionné, la première étape de notre approche consiste à identifier un cas d'usage initial et, plus important encore, à le développer en mettant en œuvre les 4 principes du maillage de données avec les ressources existantes. La formation de l'équipe responsable du développement du projet pilote permettra de mettre en œuvre le premier principe du maillage des données, à savoir la propriété décentralisée des données axée sur le domaine.
EXEMPLE DE BUREAUX À PRIMES
Les données nécessaires au projet pilote appartiennent au domaine du courtage, où sera créée l'équipe responsable du développement du projet pilote. Cette équipe multidisciplinaire comprend
- Un product owner données
- Vous devez avoir une bonne compréhension de l'activité et une forte culture des données pour assumer les responsabilités suivantes : concevoir des produits de données et gérer leur cycle de vie, définir et appliquer des politiques d'utilisation, assurer la conformité avec les normes et réglementations internes, et mesurer et superviser la performance économique et la conformité de leur portefeuille de produits.
- Deux ingénieurs
- L'un d'entre eux est issu des équipes du domaine du courtage et apporte sa connaissance des systèmes opérationnels et des pratiques d'ingénierie logicielle du domaine, tandis que l'autre est issu de l'équipe chargée des données et connaît bien DBT, GCP et BigQuery.
- Un développeur de visualisation
- Qui peut concevoir et construire le tableau de bord.
Outil du domaine : La plate-forme de données de la maille de données
L'un des principaux obstacles à la décentralisation est le risque de multiplier les efforts et les compétences nécessaires à l'exploitation des pipelines et des infrastructures dans chaque domaine. Mais à cet égard, il existe aussi un solide état de l'art hérité des architectures distribuées.
La solution consiste à structurer une équipe chargée de fournir aux domaines les primitives technologiques et les outils nécessaires pour extraire, traiter, stocker et servir les données de leur domaine.
Ce modèle existe depuis plusieurs années pour les infrastructures applicatives et s'est progressivement généralisé et automatisé grâce à la virtualisation, la conteneurisation, les outils DevOps et les plateformes cloud. Bien que l'outillage des infrastructures de données ne soit pas aussi mature que celui des infrastructures logicielles, notamment en termes d'automatisation, la plupart des solutions sont transférables et des capacités sont déjà présentes dans les organisations du fait des investissements passés. Par conséquent, rien n'empêche de mettre en place une équipe d'infrastructure de données, d'établir sa feuille de route et d'améliorer progressivement son offre de services : la simplification et l'automatisation étant les principaux axes de cette progression.
Les trois plans de la plateforme Data Mesh
La plateforme de données pour le maillage de données couvre un large éventail de capacités, plus large que les services d'infrastructure. Cette plateforme est divisée en trois plans :
- Le plan d'approvisionnement de l'infrastructure de données - Fournit des services de bas niveau pour allouer les ressources physiques nécessaires à l'extraction, au traitement, au stockage, à la distribution en temps réel ou non distribuée, au cryptage, à la mise en cache, au contrôle d'accès, au réseau, à la colocalisation, etc. des big data.
- Le plan d'expérience du développeur de produits de données - Fournit les outils nécessaires au développement des produits de données : déclaration des produits de données, construction et déploiement continus, tests, contrôles de qualité, surveillance, sécurisation, etc. L'idée est de fournir des abstractions au-dessus de l'infrastructure pour masquer sa complexité et automatiser les conventions adoptées à l'échelle de la maille.
- Le plan de supervision du maillage des données - Fournit un ensemble de capacités globales pour découvrir les produits de données, la lignée, la gouvernance, la conformité, les rapports globaux, le contrôle des politiques, etc.
En ce qui concerne l'infrastructure, le maillage des données ne nécessite pas de nouvelles capacités - la grande majorité des organisations disposent déjà d'une plate-forme de données. La mise en œuvre du maillage de données ne nécessite pas non plus de plateforme centralisée. Certaines entreprises ont déjà investi dans une plateforme commune, et il semble logique d'exploiter les capacités de cette plateforme pour développer le maillage. Mais d'autres ont plusieurs plateformes, certaines entités, ou certains domaines disposant de leur infrastructure. Il est tout à fait possible de déployer le maillage de données sur ces infrastructures hybrides : tant que les produits de données respectent des normes communes d'adressabilité, d'interopérabilité et de contrôle d'accès, les modalités techniques de leur exécution importent peu.
EXEMPLE DE BUREAUX À PRIMES
Premium Offices a investi dans une plateforme cloud partagée, en l'occurrence GCP (Google Cloud Platform). Cette plateforme comprend des experts au sein d'une équipe centrale qui en comprennent les subtilités. Pour son projet pilote, Premium Offices a simplement choisi d'intégrer un de ces experts dans l'équipe du projet. Cette personne sera chargée de trouver des solutions pour automatiser au maximum le déploiement des produits de données et d'identifier les étapes manuelles qui pourront être automatisées par la suite, ainsi que les éventuels outils manquants
En conclusion, la mise en place d'une équipe de développement dédiée est essentielle à la réussite de votre projet pilote de décentralisation de la gestion des données . En réunissant des personnes aux compétences et à l'expertise diverses, les organisations peuvent mettre en œuvre efficacement les principes de la gestion des données et obtenir des informations utiles à partir de leurs données. En outre, l'exploitation des plateformes existantes et l'investissement dans l'automatisation facilitent le processus de développement, ouvrant la voie à l'évolutivité et au succès à long terme.
Dans notre prochain article, vous apprendrez comment exécuter votre projet pilote de maillage de données en concevant et en développant vos premiers produits de données.
Le guide pratique du Data Mesh : Mise en place et supervision d'un Data Mesh à l'échelle de l'entreprise
Rédigé par Guillaume Bodet, notre guide a été conçu pour vous fournir des stratégies pratiques pour mettre en œuvre le maillage des données dans votre organisation, en vous aidant :
- Commencez votre parcours de maillage de données par un projet pilote ciblé.
- Découvrez des méthodes efficaces pour augmenter la taille de votre maillage de données.
- Reconnaître le rôle essentiel que joue une place de marché interne pour faciliter la consommation effective des produits de données.
- Découvrez comment la plateforme Actian Data Intelligence se présente comme un système de supervision robuste, orchestrant un maillage de données à l'échelle de l'entreprise.
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.