Intelligence des données

Qu'est-ce qui rend un catalogue de données "intelligent" ? #2 - L'inventaire des données

Actian Corporation

16 février 2022

smart-data-catalog-2-data-inventory

Un catalogue de données exploite d'énormes quantités d'informations très diverses - et son volume va croître de manière exponentielle. Cela soulèvera deux défis majeurs :

  • Comment alimenter et maintenir le volume d'informations sans tripler (ou plus) le coût de la gestion des métadonnées ?
  • Comment trouver les ensembles de données les plus pertinents pour un cas d'usage spécifique ?

A catalogue de données doit être Smart pour répondre à ces 2 questions, avec des caractéristiques technologiques et conceptuelles intelligentes qui vont au-delà de la seule intégration d'algorithmes d'IA.

A cet égard, nous avons identifié 5 domaines dans lesquels un catalogue de données peut être "intelligent" - la plupart d'entre eux n'impliquant pas l'apprentissage automatique:

  1. Métamodélisation
  2. L'inventaire des données
  3. Gestion des métadonnées
  4. Le moteur de recherche
  5. expérience utilisateur

La deuxième façon de rendre un catalogue de données "intelligent" est de l'inventorier. Un catalogue de données est essentiellement un inventaire complet des actifs d'information qui comprend un ensemble de métadonnées, ce qui permet d'exploiter l'information de la manière la plus efficace possible. La mise en place d'un catalogue de données dépend donc tout d'abord d'un inventaire des actifs des différents systèmes.

Automatiser l'inventaire : Les défis

Une approche déclarative de la constitution de l'inventaire ne nous semble pas particulièrement intelligente, même si elle est bien pensée. Elle implique beaucoup de travail au moment du lancement et de la mise à jour du catalogue - dans un paysage numérique en évolution rapide, l'effort initial devient rapidement redondant.

La première étape de la création d'un inventaire intelligent consiste bien sûr à l'automatiser. A quelques exceptions près, les données de l'entreprise sont gérées par des spécialistes des systèmes (systèmes d'archivage distribués, ERP, bases de données relationnelles, progiciels, entrepôts de données, etc.) ). Ils gèrent tous ces systèmes ainsi que toutes les métadonnées nécessaires à leur bon fonctionnement. Il n'est pas nécessaire de recréer manuellement ces informations : il suffit de se connecter aux différents registres et de synchroniser le contenu du catalogue avec les systèmes sources.

En théorie, cela devrait être simple, mais la mise en pratique est en fait assez difficile. Le fait est que il n'existe pas de norme universelle à laquelle les différentes technologies se conforment pour un moyen d'accès universel à leurs métadonnées.

Le rôle essentiel de la connectivité aux sources du système

Une couche de connectivité intelligente est un élément clé du catalogue de données intelligent. Pour une description plus détaillée de la technologie de connectivité de Zeenea, je recommande la lecture de notre précédent eBook, Les 5 avancées technologiques d'un catalogue de nouvelle génération, mais ses principales caractéristiques sont les suivantes :

  • Propriété exclusive - Nous ne faisons pas appel à des tiers afin de maintenir une extraction hautement spécialisée des métadonnées.
  • Distribué - Afin de maximiser la portée du catalogue.
  • Ouvrir - Toute personne souhaitant enrichir le catalogue peut développer son propre catalogue.
  • avec facilité.
  • Universel - Il peut synchroniser n'importe quelle source de métadonnées.

Cette connectivité peut non seulement lire et synchroniser les métadonnées contenues dans les registres sources, mais aussi produire des métadonnées.

Cette production de métadonnées nécessite plus qu'un simple accès aux registres du système source. Elle nécessite également l'accès aux données elles-mêmes, qui seront analysées par nos scanners afin d'enrichir automatiquement le catalogue.

A ce jour, nous produisons 2 types de métadonnées:

  • Analyse statistique : Construire un profil des données - distribution des valeurs, taux de valeurs nulles, valeurs maximales, etc. (la nature des métadonnées dépend évidemment du type natif des données analysées).
  • Analyse structurelle : Pour déterminer le type opérationnel de données textuelles spécifiques (courriel, adresse postale, numéro de sécurité sociale, code client, etc. - le système est évolutif et personnalisable).

Le mécanisme d'inventaire doit également être intelligent

Notre mécanisme d'inventaire est également intelligent à plusieurs égards :

  • La détection du jeu de données repose sur une connaissance approfondie des structures de stockage, en particulier dans un contexte de Big Data. Par exemple, un jeu de données IoT composé de milliers de fichiers de mesures de séries temporelles peut être identifié comme un jeu de données unique (le nombre de fichiers et leur emplacement n'étant que des métadonnées).
  • L'inventaire n'est pas intégré par défaut au catalogue afin d'éviter l'importation d'ensembles de données techniques ou temporaires qui seraient peu utiles (soit parce que les données sont inexploitables, soit parce qu'il s'agit de données dupliquées).
  • Le processus de sélection des biens à importer dans le catalogue bénéficie également d'une certaine assistance - nous nous efforçons d'identifier les objets les plus appropriés pour l'intégration dans le catalogue (avec une variété d'approches supplémentaires pour effectuer cette sélection).

Pour plus d'informations sur la façon dont Smart Data Inventorying améliore un catalogue de données, téléchargez notre eBook : "Qu'est-ce qu'un catalogue de données intelligent ?

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.