Intelligence des données

7 mensonges sur les catalogues de données #6 : il faut s'appuyer sur l'automatisation

Actian Corporation

9 juillet 2021

Gestion des processus d'entreprise et workflow

Le catalogue de données s'est développé rapidement et est désormais considéré comme incontournable dans le déploiement d'une stratégie data-driven. Victime de son succès, ce marché a attiré de nombreux acteurs des marchés adjacents.

 Ces acteurs ont modifié leur positionnement marketing afin de se présenter comme des solutions de catalogue de données .

La réalité est que, bien que relativement faibles sur les fonctionnalités du catalogue de données elles-mêmes, ces entreprises tentent de convaincre, avec un succès proportionnel à leur budget marketing, qu'un catalogue de données n'est pas seulement un outil de recherche de de haute performance pour les équipes de données, mais une solution intégrée susceptible d'aborder une foule d'autres sujets.

L'objectif de cette série de blogs est de déconstruire l'argumentaire de ces vendeurs de catalogue de données la dernière heure.

Un catalogue de données doit s'appuyer sur l'automatisation

Certains vendeurs de catalogue de données , issus du monde de la cartographie, ont développé une rhétorique selon laquelle l'automatisation est un sujet secondaire, qui peut être abordé à un stade ultérieur.

Ils vous diront que quelques importations manuelles de fichiers suffisent, ainsi qu'une généreuse communauté d'utilisateur collaborant à leur outil pour alimenter et utiliser le catalogue. Un peu d'arithmétique suffit pour comprendre pourquoi cette approche est vouée à l'échec dans une organisation centrée sur les données.

Un Data Lake actif, même modeste, recueille rapidement, dans ses différentes couches, des centaines, voire des milliers de jeux de données. A ces jeux de données peuvent s'ajouter ceux provenant d'autres systèmes (applications de bases de données, APIs diverses, CRMs, ERPs, noSQL, etc) que l'on souhaite généralement intégrer dans le catalogue.

Les ordres de grandeur dépassent rapidement les milliers, voire les dizaines de milliers de jeux de données. Chaque jeu de données contient des dizaines de champs. jeux de données et champs représentent à eux seuls plusieurs centaines de milliers d'objets (on pourrait aussi inclure d'autres actifs : modèles ML, tableaux de bord, rapports, etc). Pour que le catalogue soit utile, il ne suffit pas d'inventorier ces objets.

Il faut également y associer toutes les propriétésmétadonnées) qui permettront aux utilisateurs finaux de trouver, comprendre et exploiter ces actifs. Il existe plusieurs types de métadonnées: informations techniques, classification métier, sémantique, sécurité, sensibilité, qualité, normes, usages, popularité, contacts, etc. Là encore, pour chaque actif, il existe des dizaines de propriétés.

Retour à l'arithmétique: Globalement, nous avons affaire à des millions d'attributs qui doivent être gérés.

Ces volumes devraient à eux seuls disqualifier toute tentation de choisir l'approche manuelle. Mais ce n'est pas tout. Le stock d'actifs informationnels n'est pas statique. Il s'accroît constamment. Dans une organisation centrée sur les données, des jeux de données sont créés quotidiennement, d'autres sont déplacés ou modifiés.

Le catalogue de données doit refléter ces changements.

Sinon, son contenu sera définitivement obsolète et les utilisateurs finaux le rejetteront. Qui fera confiance à un catalogue de données incomplet et erroné ? Si vous pensez que votre organisation peut absorber la charge et maintenir votre catalogue à jour, c'est formidable. Dans le cas contraire, nous vous suggérons de contrôler le plus rapidement possible le niveau d'automatisation offert par les différentes solutions que vous envisagez.

Que peut-on automatiser dans un catalogue de données?

En termes d'automatisation, la capacité la plus importante est l'inventaire.

Un catalogue de données doit être capable de scanner régulièrement toutes vos sources de données et de mettre à jour automatiquement l'inventaire des actifsjeux de données, structures et métadonnées techniques au minimum) pour refléter la réalité quotidienne des systèmes d'hébergement.

Croyez-nous : un catalogue de données qui ne peut pas se connecter à vos sources de données deviendra rapidement inutile, car son contenu sera toujours incertain.

Une fois l'inventaire terminé, le défi suivant consiste à automatiser l'alimentation du métamodèle.

Ici, au-delà des métadonnées techniques, l'automatisation complète semble un peu difficile à imaginer. Il est encore possible de réduire significativement la charge de travail nécessaire à la maintenance du métamodèle. La valeur de certaines propriétés peut être déterminée par simple application de règles au moment de l'intégration des objets dans le catalogue.

Il est également possible de suggérer des valeurs de propriétés à l'aide d'algorithmes plus ou moins sophistiqués (analyse sémantique, pattern matching, etc.).

Enfin, il est souvent possible d'alimenter une partie du catalogue en intégrant les systèmes qui produisent ou contiennent des métadonnées. Cela peut s'appliquer par exemple à la mesure de la qualité, aux informations de lignage, aux ontologies d'entreprise, etc.

Pour que cette approche fonctionne, le catalogue de données doit être ouvert et offrir un ensemble complet d'API permettant de mettre à jour les métadonnées à partir d'autres systèmes.

À emporter

Un catalogue de données traite des millions d'informations dans un paysage en constante évolution.

La gestion manuelle de ces informations est pratiquement impossible ou extrêmement coûteuse. Sans automatisation, le contenu du catalogue sera toujours incertain et les équipes chargées des données ne l'utiliseront pas.

logo avatar actian

À propos d'Actian Corporation

Actian permet aux entreprises de gérer et de gouverner en toute confiance les données à l'échelle, en rationalisant les environnements de données complexes et en accélérant la fourniture de données prêtes pour l'IA. L'approche d'Actian en matière d'intelligence des données combine la découverte de données, la gestion des métadonnées et la gouvernance fédérée pour permettre une utilisation plus intelligente des données et améliorer la conformité. Grâce à desFonctionnalités intuitives libre-service , les utilisateurs professionnels et techniques peuvent trouver, comprendre et faire confiance aux actifs de données dans les environnements cloud, hybrides et sur site . Actian fournit des solutions de gestion des données flexibles à 42 millions d'utilisateurs au sein de sociétés Fortune 100 et d'autres entreprises dans le monde entier, tout en maintenant un taux de satisfaction de la clientèle de 95 %.