Intelligence des données

Lignage des données dans un environnement Big Data

Actian Corporation

1er mars 2018

lignée de données

La lignée des données est définie comme un type de cycle de vie des données. Il s'agit d'une représentation détaillée de toute donnée au fil du temps : son origine, ses processus et ses transformations. Bien qu'il ne s'agisse pas d'un tout nouveau concept, un changement de paradigme est en train de s'opérer, un changement de paradigme est en train de s'opérer.

L'obtention de l'historique des données à partir d'un entrepôt de données, par exemple, était une tâche assez simple. Ce système de stockage centralisé permettait, "par conception", d'obtenir le lignage des données à partir des données stockées au même endroit.

L'écosystème des données évolue très rapidement depuis l'émergence du Big Data en raison de l'apparition de diverses technologies et systèmes de stockage qui compliquent les systèmes d'information des entreprises.

Il est devenu impossible de conserver et d'imposer un outil unique et centralisé dans les organisations. Les logiciels et les méthodes utilisés par les urbanistes et les architectes des SI de "l'ancien monde" sont devenus de moins en moins maintenables, rendant leurs travaux obsolètes et illisibles.

Alors, comment visualiser une lignée de données efficace dans un environnement Big Data ?

Pour avoir une vision globale des données du SI d'une entreprise, de nouveaux outils apparaissent. On parle de catalogue de données. Il permet de traiter un maximum de métadonnées issues de tous les stockages de données via une interface utilisateur. En centralisant toutes ces informations, il est possible de créer des lignées de données dans un environnement Big Data à différents niveaux :

Au niveau des ensembles de données

Il peut s'agir d'une table dans Oracle, d'un sujet dans Kafka ou même d'un répertoire dans le lac de données. Un catalogue de données met en évidence les processus et les ensembles de données qui ont permis de créer le jeu de données final.

Cependant, cette norme de lignage des données ne permet pas à elle seule de répondre à toutes les questions des utilisateurs de données. Entre autres, ces questions demeurent : Qu'en est-il des données sensibles ? Quelles colonnes ont été créées et avec quels processus ? etc.

Au niveau des colonnes

Une manière plus granulaire d'aborder ce sujet consiste à représenter les différentes étapes de transformation d'un jeu de données sous la forme d'une chronologie d'actions/événements. En sélectionnant un champ spécifique, les utilisateurs pourront voir quelles colonnes et quelles actions l'ont créé.

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous couvrons des sujets allant de l'ingestion de données en temps réel à l'analyse pilotée par l'IA. Faites connaissance avec l'équipe dirigeante https://www.actian.com/company/leadership-team/