Intelligence des données

Les pièges à éviter pour un projet de catalogue de données - Intégration technique

Actian Corporation

29 septembre 2022

Illustration graphique abstraite de la carte du monde sur fond bleu, concept de Big Data et de mise en réseau 3d Rendering

La gestion desmétadonnées est une composante importante d'un projet de gestion des données et elle nécessite plus qu'une simple solution de catalogue de données , aussi connectée soit-elle.

Un outil de catalogue de données réduira bien sûr la charge de travail , mais ne garantira pas à lui seul la réussite du projet.

Dans cette série d'articles, découvrez les pièges et les idées reçues à éviter lors du déploiement d'un projet de catalogue de données à l'échelle de l'entreprise. Les pièges décrits dans cette série s'articulent autour de 4 thèmes centraux qui sont cruciaux pour le succès de l'initiative :

  1. La culture des données au sein de l'organisation.
  2. Parrainage interne du projet.
  3. Direction du projet.
  4. Intégration technique du catalogue de données.

Intégrer le catalogue de données dans l'écosystème de l'entreprise permettra de créer de la valeur. Il est essentiel de prendre en compte ces aspects et de comprendre les avantages potentiels.

Toutes les métadonnées ne doivent pas être saisies manuellement

De plus en plus de systèmes produisent, agrègent et permettent la saisie de métadonnées pour la valeur locale. Ces informations doivent être récupérées et consolidées dans le catalogue, sans être saisies deux fois, pour des raisons évidentes (économie d'argent, fiabilité et disponibilité des données).

Le catalogue de données offre donc l'opportunité de consolider ces informations grâce aux connaissances des contributeurs dans leurs domaines respectifs. Cependant, cette consolidation doit être pensée à travers une intégration technique plutôt qu'un effort manuel. Même s'il est évident qu'il n'est pas efficace de saisir deux fois la même information, il n'est pas non plus souhaitable d'effectuer des importations/exportations entre les systèmes par le biais d'actions humaines.

La force d'un catalogue de données reste sa capacité à ingérer des métadonnées via des chaînes d'intégration techniques et à assurer ainsi une synchronisation robuste entre les systèmes.

Le catalogue de données n'est pas un outil "automatique".

Par ailleurs, il serait trompeur de penser qu'un catalogue de données peut extraire tous les types de métadonnées , indépendamment de leur source ou de leur format.

Le catalogue doit bien sûr faciliter la récupération des métadonnées , mais certaines métadonnées ne seront pas récupérables automatiquement. Il y aura donc toujours un coût lié à l'intervention des contributeurs.

La première raison réside dans l'origine de certaines métadonnées: certaines informations peuvent tout simplement ne pas être présentes dans les systèmes parce qu'elles proviennent uniquement de la connaissance des experts. Le catalogue de données est donc, dans ce cas, un candidat potentiel pour devenir le système maître et recevoir ces informations.

Inversement, certaines informations peuvent être présentes dans un système et être impossibles à extraire de manière automatisée... pour de nombreuses raisons. Par exemple, il peut y avoir une absence d'interface permettant d'accéder à l'information de manière stable.
d'une interface permettant d'accéder à l'information de manière stable. Le risque de produire du bruit autour de l'information est donc élevé et peut conduire à une dégradation de la qualité du contenu du catalogue et finalement détourner les utilisateurs de son utilisation.

Le catalogue de données ne doit pas être relié à une source unique de métadonnées

métadonnées provient de couches multiples et variées. Par conséquent, les sources impliquées sont multiples et complémentaires pour une compréhension globale. C'est précisément la réconciliation de ces informations dans une solution centrale, un catalogue de données, qui fournira les éléments nécessaires aux utilisateurs.

Opter pour un catalogue de données connectées est un véritable atout, car la découverte des biens et la recherche des métadonnées associées sont considérablement facilitées par l'automatisation.

Cette connectivité peut également s'étendre à d'autres systèmes complémentaires. Ces systèmes peuvent potentiellement venir avant ou après le premier, permettant, si nécessaire, la matérialisation de la lignée et documentant ainsi les flux et les transformations entre les systèmes.

Les systèmes peuvent également être indépendants les uns des autres et permettre simplement, par leur ajout au catalogue, une cartographie exhaustive du patrimoine de l'entreprise.

Enfin, compte tenu de la variété des types de biens pouvant être documentés dans le catalogue, les différentes sources connectées peuvent également contribuer à l'enrichissement d'un univers spécifique du catalogue de données: couches sémantiques pour les uns, couches physiques pour les autres, etc.

Toujours dans une démarche itérative, les multiples sources qui alimenteront le catalogue de données seront intégrées progressivement, selon une stratégie qui vise la production de valeur, sous la supervision globale du Data Office.

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous couvrons des sujets allant de l'ingestion de données en temps réel à l'analyse pilotée par l'IA.