Qu'est-ce qui rend un catalogue de données "intelligent" ? #3 - métadonnées Management
Actian Corporation
16 février 2022

A catalogue de données exploite d'énormes quantités d'informations très diverses - et son volume va croître de manière exponentielle. Cela soulèvera deux défis majeurs :
- Comment alimenter et maintenir le volume d'informations sans tripler (ou plus) le coût de la gestion des métadonnées ?
- Comment trouver les ensembles de données les plus pertinents pour un cas d'usage spécifique ?
Un catalogue de données devrait être Smart pour répondre à ces 2 questions, avec des caractéristiques technologiques et conceptuelles intelligentes qui vont au-delà de la seule intégration d'algorithmes d'IA.
À cet égard, nous avons identifié 5 domaines dans lesquels un catalogue de données peut être "intelligent" - la plupart d'entre eux n'impliquant pas l'apprentissage automatique:
- Métamodélisation
- L'inventaire des données
- Gestion des métadonnées
- Le moteur de recherche
- expérience utilisateur
C'est dans le domaine de la gestion desmétadonnées que la notion de Smart catalogue de données est le plus souvent associée aux algorithmes, à l'apprentissage automatique et à l'IA.
Comment la gestion des métadonnées est-elle automatisée ?
La gestion des métadonnées est la discipline qui consiste à évaluer les attributs du métamodèle pour les biens inventoriés. La charge de travail nécessaire est généralement proportionnelle au nombre d'attributs du métamodèle et au nombre de biens dans le catalogue.
Le rôle du Smart catalogue de données est d'automatiser au maximum cette activité, ou tout au moins d'aider les opérateurs humains (Data Stewards) à le faire pour afin d'assurer une plus grande productivité et une plus grande fiabilité.
Comme nous l'avons vu dans notre dernier article, une couche de connectivité intelligente permet l'automatisation d'une partie des métadonnées , mais cette automatisation est très limitée à un sous-ensemble restreint du métamodèle - principalement des métadonnées techniques. Un métamodèle complet, même modeste, comporte également des dizaines de métadonnées qui ne peuvent pas être extraites des registres des systèmes sources (parce qu'elles n'y figurent pas, pour commencer).
Pour résoudre cette équation, plusieurs approches sont possibles :
Reconnaissance des formes
L'approche la plus directe consiste à chercher à d'identifier des modèles dans le catalogue afin de suggérer des valeurs métadonnées pour les nouveaux actifs.
En d'autres termes, un modèle comprendra toutes les métadonnées d'un bien et les métadonnées de ses relations avec d'autres biens ou d'autres entités du catalogue. La reconnaissance des modèles se fait généralement à l'aide d'algorithmes d'apprentissage automatique.
La difficulté de la mise en œuvre de cette approche est précisément de qualifier le patrimoine informationnel sous une forme numérique afin d'alimenter les algorithmes et de sélectionner les schémas pertinents. Une simple analyse structurelle n'est pas suffisante : deux ensembles de données peuvent contenir des données identiques mais dans des structures différentes. Se baser sur l'identité des données n'est pas non plus efficace : deux jeux de données peuvent contenir des informations identiques mais avec des valeurs différentes. Par exemple, la facturation des clients en 2020 dans un jeu de données, 2021 facturation client dans l'autre.
Pour résoudre ce problème, Zeenea s'appuie sur une technologie appelée empreinte digitale. Pour construire l'empreinte digitale, nous extrayons deux types de caractéristiques des données de nos clients :
- Un groupe de caractéristiques adaptées aux données numériques (principalement des indicateurs statistiques).
- Données émanant de modèles d'intégration de mots (vectorisation de mots) pour les données textuelles.
Les empreintes digitales sont au cœur de nos algorithmes intelligents.
Les autres approches Embarqué dans un moteur de suggestion
Si la reconnaissance des formes est en effet une approche efficace pour suggérer les métadonnées d'un nouveau bien dans un catalogue, elle repose sur une condition préalable importante : pour reconnaître une forme, il faut qu'il y en ait une à reconnaître. En d'autres termes, cela ne fonctionne que s'il y a un certain nombre de biens dans le catalogue (ce qui n'est évidemment pas le cas au début d'un projet).
Et c'est précisément dans ces phases initiales d'un projet de catalogue que la charge de gestion des métadonnées est la plus élevée. Il est donc crucial d'inclure d'autres approches susceptibles d'aider les Data Stewards dans ces phases initiales, lorsqu'un catalogue est plus ou moins vide.
Le moteur de suggestions Zeenea, qui fournit des algorithmes intelligents pour aider à la gestion des métadonnées, propose également d'autres approches (que nous enrichissons régulièrement).
Voici quelques-unes de ces approches :
- Détection de similitudes structurelles.
- Détection de similitude des empreintes digitales.
- Approximation du nom.
Ce moteur de suggestion, qui analyse le contenu du catalogue afin de déterminer les valeurs probables des métadonnées des actifs intégrés, est un perpétuel sujet d'expérimentation. Nous ajoutons régulièrement de nouvelles approches, parfois très simples, parfois beaucoup plus sophistiquées. Dans notre architecture, il s'agit d'un service dédié dont les performances s'améliorent au fur et à mesure que le catalogue s'étoffe et que nous enrichissons nos algorithmes.
Zeenea a choisi d'utiliser le comme principale mesure de la productivité des Data Stewards (ce qui est l'objectif ultime de la gestion intelligente des métadonnées). des Data Stewards (ce qui est l'objectif ultime d'une gestion intelligente des métadonnées ). Le délai d'exécution est une notion issue du gestion allégée et qui mesure, dans un contexte de catalogue de données , le temps écoulé entre le moment où un bien est inventorié et le moment où toutes ses métadonnées ont été valorisées.
Pour plus d'informations sur la façon dont Smart métadonnées améliore un catalogue de données, téléchargez notre eBook : "Qu'est-ce qu'un catalogue de données intelligent ?
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.