Qu'est-ce qui rend un catalogue de données "intelligent" ? #1 - Métamodélisation
Résumé
- Les catalogues de données doivent gérer des volumes importants et croissants de métadonnées simplicité d'utilisation les coûts et simplicité d'utilisation .
- Un catalogue de données intelligent ne catalogue de données pas uniquement sur l'IA : il dépend également de la métamodélisation, de l'inventaire des données, de métadonnées , de la recherche et de utilisateur .
- Les métamodèles statiques ne sont pas efficaces, car les différents utilisateurs et contextes nécessitent des types de métadonnées variés.
- Un métamodèle organique et évolutif permet un enrichissement progressif et s'adapte aux cas d'utilisation réels au fil du temps.
- L'ajout métadonnées fonctionnelles métadonnées telles que la qualité ou la confidentialité) améliore la pertinence des résultats de recherche et simplicité d'utilisation globale.
A catalogue de données exploite d'énormes quantités d'informations très diverses, et son volume va croître de manière exponentielle. Cela soulèvera deux défis majeurs :
- Comment alimenter et maintenir le volume d'informations sans tripler (ou plus) le coût de la gestion des métadonnées ?
- Comment trouver les jeux de données les plus pertinents pour un cas d'usage spécifique ?
Nous pensons qu'un catalogue de données devrait être intelligent pour répondre à ces 2 questions, avec des caractéristiques technologiques et conceptuelles intelligentes qui vont plus loin que la seule intégration d'algorithmes d'IA.
A cet égard, nous avons identifié 5 domaines dans lesquels un catalogue de données peut être "intelligent" - la plupart d'entre eux ne faisant pas appel à l'apprentissage automatique:
- Métamodélisation
- L'inventaire des données
- Gestion des métadonnées
- Le moteur de recherche
- expérience utilisateur
Un métamodèle universel et statique ne peut être intelligent
À l'échelle d'une entreprise, les métadonnées nécessaires pour exploiter de manière significative les actifs informationnels peuvent être considérables. En outre, les métadonnées sont spécifiques à chaque organisation, parfois même entre différentes populations au sein d'une organisation. Par exemple, un analyste commercial ne recherchera pas nécessairement les mêmes informations qu'un ingénieur ou un chef de produit.
Tenter de créer un métamodèle universel ne nous semble donc pas très judicieux. En effet, un tel métamodèle devrait s'adapter à une pléthore de situations différentes, et sera inévitablement victime de l'un des 3 pièges ci-dessous :
- Une simplicité excessive qui ne couvrira pas tous les cas d'utilisation nécessaires.
- Des niveaux d'abstraction excessifs avec le potentiel de s'adapter à un certain nombre de contextes au prix d'un apprentissage ardu et fastidieux - ce n'est pas une situation idéale pour le déploiementun catalogue à l'échelle de l'entreprise.
- Les niveaux d'abstraction manquant de profondeur et conduisant finalement à une multiplicité de concepts concrets s'appuient sur une combinaison de notions émanant d'une variété de contextes différents - dont beaucoup seront inutiles dans un contexte spécifique, rendant le métamodèle inutilement compliqué et potentiellement incompréhensible.
Selon nous, une métamodélisation intelligente devrait garantir un métamodèle qui s'adapte à n'importe quel contexte et qui peut être enrichi au fur et à mesure que les cas d'utilisation ou les niveaux de maturité se développent au fil du temps.
L'approche organique d'un métamodèle
Un métamodèle est un champ de connaissances et la structure formelle d'un modèle de connaissances est appelée ontologie.
Une ontologie définit un ensemble de classes d'objets, leurs attributs et les relations qui les unissent. Dans un modèle universel, l'ontologie est statique - les classes, les attributs et les relations sont prédéfinis, avec différents niveaux d'abstraction et de complexité.

Actian Data Intelligence Platform a choisi de ne pas s'appuyer sur une ontologie statique mais plutôt sur ungraphe de connaissances évolutif .
Le métamodèle est donc volontairement simple au départ - il n'y a qu'une poignée de types, représentant les différentes classes d'actifs informationnels (sources de données, jeux de données, champs, tableaux de bord), chacun avec quelques attributs essentiels (nom, description, contacts).
Ce métamodèle est alimenté automatiquement par les métadonnées techniques métadonnées des sources de données, qui varient en fonction de la technologie concernée (les métadonnées techniques métadonnées table dans un entrepôt de données diffèrent de métadonnées fichier dans un lac de données).

Ce métamodèle organique est la manière la plus intelligente de traiter la question de l'ontologie dans un catalogue de données. En effet, elle offre plusieurs avantages :
- Le métamodèle peut s'adapter à chaque contexte, en s'appuyant souvent sur un modèle préexistant, et en intégrant la interne et la terminologie interne sans nécessiter une phase d'apprentissage longue et coûteuse ;
- Il n'est pas nécessaire de définir entièrement le métamodèle avant d'utiliser le catalogue de données il vous suffira de vous concentrer sur quelques classes d'objets et les quelques attributs nécessaires pour couvrir les cas d'utilisation initiaux. Vous pourrez ensuite enrichir le modèle au fur et à mesure que l'adoption du catalogue progressera.
- utilisateur peuvent être intégrés progressivement, ce qui favorise l'adoption du catalogue et, par conséquent, garantit le retour sur investissement de métadonnées .
Ajouter des attributs fonctionnels au métamodèle pour faciliter la recherche
Cette approche de métamodélisation présente des avantages considérables, mais aussi un inconvénient majeur : le métamodèle étant totalement dynamique, il est difficile pour le moteur d'en comprendre la structure, et donc d'aider les utilisateurs à alimenter le catalogue et à utiliser les données (deux composantes essentielles d'un Smart catalogue de données).
Une partie de la solution concerne le métamodèle et les attributs de l'ontologie. En général, les attributs du métamodèle sont définis par leurs types techniques (date, nombre, chaîne de caractères, liste de valeurs, etc.). Avec la plateforme Actian Data Intelligence, ces types de bibliothèque incluent bien sûr ces types techniques.
Mais ils comprennent également des types fonctionnels : niveaux de qualité, niveaux de confidentialité, touche personnelle, etc. Ces types fonctionnels permettent au moteur de la plateforme de mieux comprendre l'ontologie, d'affiner les algorithmes et d'adapter la représentation de l'information.
Pour plus d'informations sur la manière de Smart Metamodeling améliore un catalogue de données, téléchargez notre eBook : « Qu'est-ce qu'un catalogue de données intelligent ?»