Qu'est-ce qui rend un catalogue de données "intelligent" ? #1 - Métamodélisation
Actian Corporation
16 février 2022

A catalogue de données exploite d'énormes quantités d'informations très diverses - et son volume va croître de manière exponentielle. Cela soulèvera deux défis majeurs :
- Comment alimenter et maintenir le volume d'informations sans tripler (ou plus) le coût de la gestion des métadonnées ?
- Comment trouver les ensembles de données les plus pertinents pour un cas d'usage spécifique ?
Chez Zeenea, nous pensons qu'un catalogue de données doit être Smart pour répondre à ces 2 questions, avec des caractéristiques technologiques et conceptuelles intelligentes qui vont plus loin que la seule intégration d'algorithmes d'IA.
À cet égard, nous avons identifié 5 domaines dans lesquels un catalogue de données peut être "intelligent" - la plupart d'entre eux n'impliquant pas l'apprentissage automatique:
- Métamodélisation
- L'inventaire des données
- Gestion des métadonnées
- Le moteur de recherche
- expérience utilisateur
Un métamodèle universel et statique ne peut être intelligent
À l'échelle d'une entreprise, les métadonnées nécessaires pour exploiter de manière significative les actifs informationnels peuvent être considérables. En outre, les métadonnées sont spécifiques à chaque organisation, parfois même entre différentes populations au sein d'une organisation. Par exemple, un analyste commercial ne recherchera pas nécessairement les mêmes informations qu'un ingénieur ou un chef de produit.
Tenter de créer un métamodèle universel ne nous semble donc pas très judicieux. En effet, un tel métamodèle devrait s'adapter à une pléthore de situations différentes, et sera inévitablement victime de l'un des 3 pièges ci-dessous :
- Une simplicité excessive qui ne couvrira pas tous les cas d'utilisation nécessaires.
- Des niveaux d'abstraction excessifs avec le potentiel de s'adapter à un certain nombre de contextes au prix d'un apprentissage ardu et fastidieux - ce n'est pas une situation idéale pour le déploiementun catalogue à l'échelle de l'entreprise.
- Les niveaux d'abstraction manquant de profondeur et conduisant finalement à une multiplicité de concepts concrets s'appuient sur une combinaison de notions émanant d'une variété de contextes différents - dont beaucoup seront inutiles dans un contexte spécifique, rendant le métamodèle inutilement compliqué et potentiellement incompréhensible.
Selon nous, une métamodélisation intelligente devrait garantir un métamodèle qui s'adapte à n'importe quel contexte et qui peut être enrichi au fur et à mesure que les cas d'utilisation ou les niveaux de maturité se développent au fil du temps.
L'approche organique d'un métamodèle
Un métamodèle est un champ de connaissances et la structure formelle d'un modèle de connaissances est appelée ontologie.
Une ontologie définit un ensemble de classes d'objets, leurs attributs et les relations qui les unissent. Dans un modèle universel, l'ontologie est statique - les classes, les attributs et les relations sont prédéfinis, avec différents niveaux d'abstraction et de complexité.
Zeenea a choisi de ne pas s'appuyer sur une ontologie statique mais plutôt sur ungraphe de connaissances évolutif .
Le métamodèle est donc volontairement simple au départ - il n'y a qu'une poignée de types, représentant les différentes classes d'actifs informationnels (sources de données, ensembles de données, champs, tableaux de bord), chacun avec quelques attributs essentiels (nom, description, contacts).
Ce métamodèle est alimenté automatiquement par les métadonnées techniques extraites des sources de données qui varient en fonction de la technologie en question (les métadonnées techniques d'une table dans un entrepôt de données diffèrent des métadonnées techniques d'un fichier dans un lac de données).
Pour Zeenea, cette métamodélisation organique est la manière la plus intelligente de traiter la question de l'ontologie dans un catalogue de données. En effet, elle offre plusieurs avantages :
- Le métamodèle peut s'adapter à chaque contexte, souvent en s'appuyant sur un modèle préexistant, en intégrant la nomenclature et la terminologie internes sans qu'il soit nécessaire de suivre une courbe d'apprentissage longue et coûteuse ;
- Il n'est pas nécessaire de définir entièrement le métamodèle avant d'utiliser le catalogue de données - il suffit de se concentrer sur quelques classes d'objets et sur les quelques attributs nécessaires pour couvrir les cas d'utilisation initiaux. Vous pourrez ensuite charger le modèle au fur et à mesure de l'adoption du catalogue ;
- Le retour d'information de l'utilisateur peut être intégré progressivement, ce qui améliore l'adoption du catalogue et, par conséquent, garantit un retour sur investissement pour la direction des métadonnées .
Ajouter des attributs fonctionnels au métamodèle pour faciliter la recherche
Cette approche de métamodélisation présente des avantages considérables, mais aussi un inconvénient majeur : le métamodèle étant totalement dynamique, il est difficile pour le moteur d'en comprendre la structure, et donc d'aider les utilisateurs à alimenter le catalogue et à utiliser les données (deux composantes essentielles d'un Smart catalogue de données).
Une partie de la solution concerne le métamodèle et les attributs de l'ontologie. Habituellement, les attributs du métamodèle sont définis par leurs types techniques (date, nombre, chaîne de caractères, liste de valeurs, etc.) Avec Zeenea, ces types de bibliothèque incluent bien sûr ces types techniques.
Mais ils comprennent également des types fonctionnels - niveaux de qualité, niveaux de confidentialité, touche personnelle, etc. Ces types fonctionnels permettent au moteur Zeenea de mieux comprendre l'ontologie, d'affiner les algorithmes et d'adapter la représentation de l'information.
Pour plus d'informations sur la façon dont intelligente Metamodelling améliore un catalogue de données, téléchargez notre eBook : "Qu'est-ce qu'un catalogue de données intelligent ?
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.