Intelligence des données

Lignage des données dans un environnement Big Data

Actian Corporation

1er mars 2018

lignée de données

La lignée des données est définie comme un type de cycle de vie des données. Il s'agit d'une représentation détaillée de toute donnée au fil du temps : son origine, ses processus et ses transformations. Bien qu'il ne s'agisse pas d'un tout nouveau concept, un changement de paradigme est en train de s'opérer, un changement de paradigme est en train de s'opérer.

L'obtention de l'historique des données à partir d'un entrepôt de données, par exemple, était une tâche assez simple. Ce système de stockage centralisé permettait, "par conception", d'obtenir le lignage des données à partir des données stockées au même endroit.

L'écosystème des données évolue très rapidement depuis l'émergence du Big Data en raison de l'apparition de diverses technologies et systèmes de stockage qui compliquent les systèmes d'information des entreprises.

Il est devenu impossible de conserver et d'imposer un outil unique et centralisé dans les organisations. Les logiciels et les méthodes utilisés par les urbanistes et les architectes des SI de "l'ancien monde" sont devenus de moins en moins maintenables, rendant leurs travaux obsolètes et illisibles.

Alors, comment visualiser une lignée de données efficace dans un environnement Big Data ?

Pour avoir une vision globale des données du SI d'une entreprise, de nouveaux outils apparaissent. On parle de catalogue de données. Il permet de traiter un maximum de métadonnées issues de tous les stockages de données via une interface utilisateur. En centralisant toutes ces informations, il est possible de créer des lignées de données dans un environnement Big Data à différents niveaux :

Au niveau des ensembles de données

Il peut s'agir d'une table dans Oracle, d'un sujet dans Kafka ou même d'un répertoire dans le lac de données. Un catalogue de données met en évidence les processus et les ensembles de données qui ont permis de créer le jeu de données final.

Cependant, cette norme de lignage des données ne permet pas à elle seule de répondre à toutes les questions des utilisateurs de données. Entre autres, ces questions demeurent : Qu'en est-il des données sensibles ? Quelles colonnes ont été créées et avec quels processus ? etc.

Au niveau des colonnes

Une manière plus granulaire d'aborder ce sujet consiste à représenter les différentes étapes de transformation d'un jeu de données sous la forme d'une chronologie d'actions/événements. En sélectionnant un champ spécifique, les utilisateurs pourront voir quelles colonnes et quelles actions l'ont créé.

logo avatar actian

À propos d'Actian Corporation

Actian permet aux entreprises de gérer et de gouverner en toute confiance les données à l'échelle, en rationalisant les environnements de données complexes et en accélérant la fourniture de données prêtes pour l'IA. L'approche d'Actian en matière d'intelligence des données combine la découverte de données, la gestion des métadonnées et la gouvernance fédérée pour permettre une utilisation plus intelligente des données et améliorer la conformité. Grâce à des capacités intuitives de libre-service , les utilisateurs professionnels et techniques peuvent trouver, comprendre et faire confiance aux actifs de données dans les environnements cloud, hybrides et sur site . Actian fournit des solutions flexibles de gestion des données à 42 millions d'utilisateurs au sein de sociétés du Fortune 100 et d'autres entreprises dans le monde entier, tout en maintenant un taux de satisfaction de la clientèle de 95 %.