Intelligence des données

Lignage des données dans un environnement Big Data

Actian Corporation

1er mars 2018

lignée de données

La lignée des données est définie comme un type de cycle de vie des données. Il s'agit d'une représentation détaillée de toute donnée au fil du temps : son origine, ses processus et ses transformations. Bien qu'il ne s'agisse pas d'un tout nouveau concept, un changement de paradigme est en train de s'opérer, un changement de paradigme est en train de s'opérer.

L'obtention de l'historique des données à partir d'un entrepôt de données, par exemple, était une tâche assez simple. Ce système de stockage centralisé permettait, "par conception", d'obtenir le lignage des données à partir des données stockées au même endroit.

L'écosystème des données évolue très rapidement depuis l'émergence du Big Data en raison de l'apparition de diverses technologies et systèmes de stockage qui compliquent les systèmes d'information des entreprises.

Il est devenu impossible de conserver et d'imposer un outil unique et centralisé dans les organisations. Les logiciels et les méthodes utilisés par les urbanistes et les architectes des SI de "l'ancien monde" sont devenus de moins en moins maintenables, rendant leurs travaux obsolètes et illisibles.

Alors, comment visualiser une lignée de données efficace dans un environnement Big Data ?

Pour avoir une vision globale des données du SI d'une entreprise, de nouveaux outils apparaissent. On parle de catalogue de données. Il permet de traiter un maximum de métadonnées issues de tous les stockages de données via une interface utilisateur. En centralisant toutes ces informations, il est possible de créer des lignées de données dans un environnement Big Data à différents niveaux :

Au niveau des ensembles de données

Il peut s'agir d'une table dans Oracle, d'un sujet dans Kafka ou même d'un répertoire dans le lac de données. Un catalogue de données met en évidence les processus et les ensembles de données qui ont permis de créer le jeu de données final.

Cependant, cette norme de lignage des données ne permet pas à elle seule de répondre à toutes les questions des utilisateurs de données. Entre autres, ces questions demeurent : Qu'en est-il des données sensibles ? Quelles colonnes ont été créées et avec quels processus ? etc.

Au niveau des colonnes

Une manière plus granulaire d'aborder ce sujet consiste à représenter les différentes étapes de transformation d'un jeu de données sous la forme d'une chronologie d'actions/événements. En sélectionnant un champ spécifique, les utilisateurs pourront voir quelles colonnes et quelles actions l'ont créé.

logo avatar actian

À propos d'Actian Corporation

Actian donne aux entreprises les moyens de gérer et de gouverner en toute confiance les données à l'échelle. Les solutions d'intelligence des données d'Actian aident à rationaliser les environnements de données complexes et à accélérer la fourniture de données prêtes pour l'IA. Conçues pour être flexibles, les solutions d'Actian s'intègrent de manière transparente et fonctionnent de manière fiable dans les environnements sur site, cloud et hybrides. Pour en savoir plus sur Actian, la division données de HCLSoftware, rendez-vous sur actian.com.