Qu'est-ce qui rend un catalogue de données "intelligent" ? #2 - L'inventaire des données
Actian Corporation
16 février 2022

Un catalogue de données exploite d'énormes quantités d'informations très diverses - et son volume va croître de manière exponentielle. Cela soulèvera deux défis majeurs :
- Comment alimenter et maintenir le volume d'informations sans tripler (ou plus) le coût de la gestion des métadonnées ?
- Comment trouver les ensembles de données les plus pertinents pour un cas d'usage spécifique ?
A catalogue de données doit être Smart pour répondre à ces 2 questions, avec des caractéristiques technologiques et conceptuelles intelligentes qui vont au-delà de la seule intégration d'algorithmes d'IA.
A cet égard, nous avons identifié 5 domaines dans lesquels un catalogue de données peut être "intelligent" - la plupart d'entre eux n'impliquant pas l'apprentissage automatique:
- Métamodélisation
- L'inventaire des données
- Gestion des métadonnées
- Le moteur de recherche
- expérience utilisateur
La deuxième façon de rendre un catalogue de données "intelligent" est de l'inventorier. Un catalogue de données est essentiellement un inventaire complet des actifs d'information qui comprend un ensemble de métadonnées, ce qui permet d'exploiter l'information de la manière la plus efficace possible. La mise en place d'un catalogue de données dépend donc tout d'abord d'un inventaire des actifs des différents systèmes.
Automatiser l'inventaire : Les défis
Une approche déclarative de la constitution de l'inventaire ne nous semble pas particulièrement intelligente, même si elle est bien pensée. Elle implique beaucoup de travail au moment du lancement et de la mise à jour du catalogue - dans un paysage numérique en évolution rapide, l'effort initial devient rapidement redondant.
La première étape de la création d'un inventaire intelligent consiste bien sûr à l'automatiser. A quelques exceptions près, les données de l'entreprise sont gérées par des spécialistes des systèmes (systèmes d'archivage distribués, ERP, bases de données relationnelles, progiciels, entrepôts de données, etc.) ). Ils gèrent tous ces systèmes ainsi que toutes les métadonnées nécessaires à leur bon fonctionnement. Il n'est pas nécessaire de recréer manuellement ces informations : il suffit de se connecter aux différents registres et de synchroniser le contenu du catalogue avec les systèmes sources.
En théorie, cela devrait être simple, mais la mise en pratique est en fait assez difficile. Le fait est que il n'existe pas de norme universelle à laquelle les différentes technologies se conforment pour un moyen d'accès universel à leurs métadonnées.
Le rôle essentiel de la connectivité aux sources du système
Une couche de connectivité intelligente est un élément clé du catalogue de données intelligent. Pour une description plus détaillée de la technologie de connectivité de Zeenea, je recommande la lecture de notre précédent eBook, Les 5 avancées technologiques d'un catalogue de nouvelle génération, mais ses principales caractéristiques sont les suivantes :
- Propriété exclusive - Nous ne faisons pas appel à des tiers afin de maintenir une extraction hautement spécialisée des métadonnées.
- Distribué - Afin de maximiser la portée du catalogue.
- Ouvrir - Toute personne souhaitant enrichir le catalogue peut développer son propre catalogue.
- avec facilité.
- Universel - Il peut synchroniser n'importe quelle source de métadonnées.
Cette connectivité peut non seulement lire et synchroniser les métadonnées contenues dans les registres sources, mais aussi produire des métadonnées.
Cette production de métadonnées nécessite plus qu'un simple accès aux registres du système source. Elle nécessite également l'accès aux données elles-mêmes, qui seront analysées par nos scanners afin d'enrichir automatiquement le catalogue.
A ce jour, nous produisons 2 types de métadonnées:
- Analyse statistique : Construire un profil des données - distribution des valeurs, taux de valeurs nulles, valeurs maximales, etc. (la nature des métadonnées dépend évidemment du type natif des données analysées).
- Analyse structurelle : Pour déterminer le type opérationnel de données textuelles spécifiques (courriel, adresse postale, numéro de sécurité sociale, code client, etc. - le système est évolutif et personnalisable).
Le mécanisme d'inventaire doit également être intelligent
Notre mécanisme d'inventaire est également intelligent à plusieurs égards :
- La détection du jeu de données repose sur une connaissance approfondie des structures de stockage, en particulier dans un contexte de Big Data. Par exemple, un jeu de données IoT composé de milliers de fichiers de mesures de séries temporelles peut être identifié comme un jeu de données unique (le nombre de fichiers et leur emplacement n'étant que des métadonnées).
- L'inventaire n'est pas intégré par défaut au catalogue afin d'éviter l'importation d'ensembles de données techniques ou temporaires qui seraient peu utiles (soit parce que les données sont inexploitables, soit parce qu'il s'agit de données dupliquées).
- Le processus de sélection des biens à importer dans le catalogue bénéficie également d'une certaine assistance - nous nous efforçons d'identifier les objets les plus appropriés pour l'intégration dans le catalogue (avec une variété d'approches supplémentaires pour effectuer cette sélection).
Pour plus d'informations sur la façon dont Smart Data Inventorying améliore un catalogue de données, téléchargez notre eBook : "Qu'est-ce qu'un catalogue de données intelligent ?
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.