7 mensonges sur les catalogues de données #6 : il faut s'appuyer sur l'automatisation
Résumé
- Un catalogue de données s'appuyer largement sur l'automatisation en raison du volume considérable et en constante augmentation des ressources de données et métadonnées.
- Les méthodes manuelles de gestion d'un catalogue ne sont pas évolutif deviennent rapidement obsolètes ou peu fiables.
- L'analyse automatisée des sources de données est essentielle pour garantir l'exactitude et l'actualité du catalogue.
- L'automatisation peut également contribuer à enrichir métadonnées des règles, des intégrations et des suggestions intelligentes.
- Sans une automatisation solide, un catalogue de données d'un manque de confiance, d'une faible adoption et, au final, d'un échec.
Le catalogue de données s'est développé rapidement et est désormais considéré comme incontournable dans le déploiement d'une stratégie data-driven. Victime de son succès, ce marché a attiré de nombreux acteurs des marchés adjacents.
Ces acteurs ont modifié leur positionnement marketing afin de se présenter comme des solutions de catalogue de données .
La réalité est que, bien que relativement faibles sur les fonctionnalités du catalogue de données elles-mêmes, ces entreprises tentent de convaincre, avec un succès proportionnel à leur budget marketing, qu'un catalogue de données n'est pas seulement un outil de recherche de de haute performance pour les équipes de données, mais une solution intégrée susceptible d'aborder une foule d'autres sujets.
L'objectif de cette série de blogs est de déconstruire l'argumentaire de ces vendeurs de catalogue de données la dernière heure.
Voici, selon nous, les 7 mensonges des vendeurs de catalogue de données :
- Un catalogue de données est une plateforme de gouvernance données.
- Un catalogue de données permet de mesurer et de gérer la qualité des données.
- Un catalogue de données permet de gérer la conformité réglementaire.
- Un catalogue de données peut requête données directement.
- Un catalogue de données peut modéliser l'architecture logique et les processus d'entreprise autour des données.
- Le catalogue de données est un outil collaboratif de cartographie et de gestion des métadonnées qui ne peut être automatisé.
- Un catalogue de données est un projet long, complexe et coûteux.
Un catalogue de données doit s'appuyer sur l'automatisation
Certains vendeurs de catalogue de données , issus du monde de la cartographie, ont développé une rhétorique selon laquelle l'automatisation est un sujet secondaire, qui peut être abordé à un stade ultérieur.
Ils vous diront que quelques importations manuelles de fichiers suffisent, ainsi qu'une généreuse communauté d'utilisateur collaborant à leur outil pour alimenter et utiliser le catalogue. Un peu d'arithmétique suffit pour comprendre pourquoi cette approche est vouée à l'échec dans une organisation centrée sur les données.
Un Data Lake actif, même modeste, recueille rapidement, dans ses différentes couches, des centaines, voire des milliers de jeux de données. A ces jeux de données peuvent s'ajouter ceux provenant d'autres systèmes (applications de bases de données, APIs diverses, CRMs, ERPs, noSQL, etc) que l'on souhaite généralement intégrer dans le catalogue.
Les ordres de grandeur dépassent rapidement les milliers, voire les dizaines de milliers de jeux de données. Chaque jeu de données contient des dizaines de champs. jeux de données et champs représentent à eux seuls plusieurs centaines de milliers d'objets (on pourrait aussi inclure d'autres actifs : modèles ML, tableaux de bord, rapports, etc). Pour que le catalogue soit utile, il ne suffit pas d'inventorier ces objets.
Il faut également y associer toutes les propriétésmétadonnées) qui permettront aux utilisateurs finaux de trouver, comprendre et exploiter ces actifs. Il existe plusieurs types de métadonnées: informations techniques, classification métier, sémantique, sécurité, sensibilité, qualité, normes, usages, popularité, contacts, etc. Là encore, pour chaque actif, il existe des dizaines de propriétés.
Retour à l'arithmétique: Globalement, nous avons affaire à des millions d'attributs qui doivent être gérés.
Ces volumes à eux seuls devraient suffire à dissuader quiconque de se tourner vers une approche manuelle. Mais ce n’est pas tout. Le stock de ressources informationnelles n’est pas statique. Il ne cesse de croître. Dans une organisation centrée sur les données, jeux de données créés chaque jour, tandis que d’autres sont déplacés ou modifiés.
Le catalogue de données doit refléter ces changements.
Sinon, son contenu deviendra définitivement obsolète et les utilisateurs finaux le rejetteront. Qui ferait confiance catalogue de données un catalogue de données incomplet et erroné ? Si vous estimez que votre organisation est en mesure d'assumer cette charge de travail et de maintenir votre catalogue à jour, c'est parfait. Dans le cas contraire, nous vous recommandons d'évaluer dès que possible le niveau d'automatisation offert par les différentes solutions que vous envisagez.
Que peut-on automatiser dans un catalogue de données?
En termes d'automatisation, la capacité la plus importante est l'inventaire.
Un catalogue de données être capable d'analyser régulièrement toutes vos sources de données et de mettre à jour automatiquement l'inventaire des ressources ( métadonnées minimumjeux de données, les structures et métadonnées techniques) afin de refléter la situation réelle au quotidien des systèmes d'hébergement.
Croyez-nous : un catalogue de données qui ne peut pas se connecter à vos sources de données deviendra rapidement inutile, car son contenu sera toujours incertain.
Une fois l'inventaire terminé, le défi suivant consiste à automatiser l'alimentation du métamodèle.
Ici, au-delà des métadonnées techniques, l'automatisation complète semble un peu difficile à imaginer. Il est encore possible de réduire significativement la charge de travail nécessaire à la maintenance du métamodèle. La valeur de certaines propriétés peut être déterminée par simple application de règles au moment de l'intégration des objets dans le catalogue.
Il est également possible de suggérer des valeurs de propriétés à l'aide d'algorithmes plus ou moins sophistiqués (analyse sémantique, pattern matching, etc.).
Enfin, il est souvent possible d'alimenter une partie du catalogue en intégrant les systèmes qui produisent ou contiennent métadonnées. Cela peut s'appliquer, par exemple, aux mesures de qualité, aux informations de traçabilité, aux ontologies métier, etc.
Pour que cette approche fonctionne, le catalogue de données doit être ouvert et offrir un ensemble complet d'API permettant de mettre à jour les métadonnées à partir d'autres systèmes.
À emporter
Un catalogue de données des millions d'informations dans un environnement en constante évolution.
La gestion manuelle de ces informations est pratiquement impossible ou extrêmement coûteuse. Sans automatisation, la fiabilité du contenu du catalogue sera toujours remise en question, et les équipes chargées des données ne l'utiliseront pas.