Résumé

  • Explique ce qu'est la traçabilité des données et pourquoi il est important d'en comprendre les différents types.
  • Décompose les principaux types de lignées : commerciales, techniques et opérationnelles.
  • Souligne comment chaque type de lignée soutient gouvernance, la confiance et la conformité.
  • Guide sur quand utiliser chaque approche de lignée en fonction de la maturité des données et du risque.
  • Montre comment Actian prend en charge la traçabilité dynamique des données de bout en bout à grande échelle.

En gestion des données, la mise en œuvre de la traçabilité des données est essentielle. En termes simples, la traçabilité des données permet de suivre le parcours des données : leur origine, leur flux, leur transformation et, enfin, leur utilisation.

Dans cet article, nous explorerons les différents types de lignées de données : ce qu'elles sont, pourquoi elles sont importantes, en quoi elles diffèrent les unes des autres et quand les organisations en ont besoin. Nous aborderons également la manière de choisir une approche adaptée à la maturité et aux besoins de votre organisation en matière de données.

Pourquoi il est important de comprendre les types de lignées de données

Avant d'entrer dans le détail des différents types, il est utile de comprendre pourquoi il est important de les distinguer. Voici pourquoi :

  • Le public et l'objectif diffèrent. Le type de lignage utile à un ingénieur technique qui s'intéresse aux transformations de table à table est différent du type de lignage utile à un analyste commercial qui s'intéresse à la manière dont un indicateur clé de performance (KPI) a été dérivé.
  • La granularité varie. Certaines lignées sont grossières, comme système → système, tandis que d'autres sont fines, comme colonne → colonne, ligne → ligne. Savoir de quelle lignée vous avez besoin vous aide à définir l'étendue de vos efforts.
  • gouvernance, conformité, audit et confiance. Disposer du bon type de lignée permet de respecter les réglementations, telles que le règlement général sur la protection des données (RGPD) et la loi sur la portabilité et la responsabilité en matière d'assurance maladie (HIPAA), tout en garantissant gouvernance des données gouvernance la confiance globale dans l'analyse.
  • Implications en matière de technologie et d'outils. Différents types de lignées peuvent nécessiter différents outils, tels que des catalogues de données, des journaux opérationnels et des bases de données graphiques. Le choix du type approprié vous aide à déterminer comment créer ou acheter des outils.

4 types principaux de lignées de données

La traçabilité des données peut être divisée en plusieurs grands types. Il existe certains recoupements terminologiques, mais les catégories les plus courantes sont les suivantes :

1. Lignée des données commerciales

Également appelé « lignée sémantique des données », ce type se concentre sur la manière dont les données sont utilisées dans un contexte commercial, plutôt que sur leur utilisation en interne par les équipes techniques.

Ce que ce type de lignée capture

  • Comment les indicateurs commerciaux ou les KPI sont calculés. Par exemple, le « taux de désabonnement des clients » est défini et calculé à partir de certains tableaux sous-jacents.
  • Quels rapports, tableaux de bord ou processus métier utilisent les données.
  • Qui est propriétaire ou responsable des données au niveau de l'entreprise ?
  • Flux de données de haut niveau, tels que systèmes sources → entrepôt de données → déploiement commercial, mais n'inclut pas nécessairement tous les détails techniques.

Qui utilise ce type de lignée ?

  • Analystes commerciaux, gestionnaires de données et équipes chargées de la conformité.
  • Pour l'audit et gouvernance, lorsque vous devez aligner les définitions commerciales sur les implémentations techniques.
  • Lorsque vous devez expliquer pourquoi un chiffre dans un tableau de bord ainsi.
  • Lorsqu'il s'agit de respectergouvernance réglementaires ou en matière degouvernance .

Ce type de traçabilité des données aide les parties prenantes non techniques à comprendre la provenance des données et à se fier aux résultats obtenus. Il garantit l'alignement entre les définitions commerciales et ce que font réellement les systèmes techniques, et facilite l'analyse d'impact. Si un processus commercial change, vous pouvez voir quels flux de données et quelles métriques peuvent être affectés.

2. Données techniques

Parfois appelé lignage physique, lignage horizontal ou simplement lignage au niveau du pipeline, ce type examine en détail les mécanismes de déplacement, de transformation et de stockage des données.

Ce que ce type de lignée capture

  • Mouvement des données entre les systèmes : extraction → transformation → chargement (ETL), pipelines de données, tâches par lots et streaming .
  • Détails tels que les tables, les fichiers, les colonnes, les schémas, la logique de transformation, les mappages et les dépendances.
  • Les infrastructures et les systèmes qui transportent physiquement les données.

Qui utilise ce type de lignée ?

  • Ingénieurs de données, architectes de données et équipes opérationnelles.
  • Lorsque vous devez déboguer des pipelines, comprendre les dépendances et planifier des migrations ou des changements système.
  • Lorsque vous devez répondre à des questions telles que « Si je modifie le tableau A, quels tableaux et tableaux de bord en aval sont affectés ? »

Ce type de traçabilité des données offre une traçabilité détaillée, permettant ainsi d'analyser les causes profondes des problèmes. Par exemple, si un tableau de bord des chiffres erronés, vous pouvez remonter à la source du problème jusqu'à la transformation qui a généré l'erreur.

La lignée permet de surveiller les performances, d'optimiser les pipelines et d'éviter les effets secondaires inattendus lorsque des changements sont apportés au système. Elle facilite également la gestion des changements, car elle permet de simuler l'effet des changements dans les systèmes en amont.

Un bref exemple

Par exemple, la lignée technique montrera que la table orders_cleaned est dérivée en joignant raw_orders et customer_info, en appliquant un filtre et une transformation, en stockant les résultats dans un lac de données, puis en les intégrant dans schéma en étoile fact_orders schéma en étoile .

Mises en garde

  • Il peut être fastidieux dans ses détails, trop pour certaines parties prenantes.
  • La capture et la conservation d'une lignée détaillée nécessitent beaucoup de ressources.
  • Sans lien avec les définitions commerciales, la traçabilité technique seule peut ne pas répondre aux besoins en matière gouvernance de transparence commerciale.

3. Lignée des données opérationnelles (ou d'exécution)

Il s'agit d'une classification relativement récente, qui rend compte du comportement des données lors de leur exécution. Elle consiste à observer les flux de données lors de leur exécution dans des systèmes en temps réel ou quasi réel. Certains utilisateurs techniques parlent de « lignage opérationnel » ou de « lignage en temps réel ».

Ce que ce type de lignée capture

  • Journaux d'exécution des pipelines : quand la tâche a été exécutée, combien de temps elle a pris et combien de données ont été transférées.
  • Anomalies, défaillances et indicateurs de performance associés aux transformations.
  • Suivi des mouvements de données en temps réel ou quasi réel, souvent pour streaming .
  • Surveillance des processus de données, par opposition aux définitions statiques.

Qui utilise ce type de lignée ?

  • Équipes chargées des opérations de données, ingénieurs en fiabilité des sites (SRE) et DevOps pour les données.
  • Équipes chargées de surveiller les pipelines de données pour en vérifier les performances, les défaillances, la latence et la fraîcheur.
  • Les équipes d'audit ou de conformité qui ont besoin de savoir quand les données ont été mises à jour pour la dernière fois ou quand un pipeline a été modifié.

Ce type de lignage des données favorise observabilité des données. Vous savez quel devrait être le lignage et comment il a été réellement exécuté. Il facilite également la réponse aux incidents. Par exemple, si un pipeline tombe en panne ou est retardé, le lignage opérationnel montre où le processus s'est bloqué. Enfin, le lignage opérationnel contribue à maintenir la fraîcheur et la fiabilité des actifs de données en garantissant que jeux de données à jour.

4. Sous-types moins courants (conception, physique, logique, au niveau des colonnes)

Au-delà des trois catégories principales, de nombreux frameworks des « types » ou sous-types supplémentaires de lignées de données. Il est utile de les considérer comme des variantes ou des améliorations des types de base.

Lignée conceptuelle (ou logique)

  • Capture les flux de données prévus ou conçus : comment les données sont censées circuler, être transformées et intégrées. Cela est souvent défini lors de la conception ou de l'intégration du système.
  • Moins sur ce qui s'est réellement passé, et davantage sur ce qui était prévu.
  • Utile lors de la conception du système, des migrations ou lors de la documentation des systèmes existants.

Lignée physique vs lignée logique

  • Lignée physique. Axée sur les fichiers, les tables, le stockage et les systèmes réels, similaire à la lignée technique.
  • Lignée logique. Abstractions de niveau supérieur, par exemple, comment les données sont dérivées plutôt que comment elles ont été déplacées exactement.

Lignée au niveau de la colonne (ou au niveau du champ)

  • Extrêmement détaillé, il suit la manière dont les colonnes ou les champs individuels, et parfois les lignes individuelles, se propagent à travers les transformations.
  • Utile pour les domaines à haut risque, tels que la finance et la santé, où vous devez retracer exactement comment une valeur a été calculée.

Lignée de bout en bout

  • Dans de nombreux frameworks, une vue de la traçabilité « de bout en bout » combine les perspectives commerciales, techniques et opérationnelles, offrant ainsi une vue d'ensemble complète, depuis les systèmes sources jusqu'à la consommation.

Comparaison des types de lignées de données

Vous trouverez ci-dessous un tableau comparatif résumant les principaux types de lignées selon des critères clés :

Type de lignée Focus / Portée Utilisateurs types Principaux avantages Principaux défis
Lignée commerciale Flux de haut niveau, définitions commerciales, rapports, tableaux de bord Analystes commerciaux, gestionnaires de données, équipes chargées de la conformité Aligne les activités et les données, favorise la confiance et gouvernance Peut manquer de détails techniques, nécessite une collaboration entre les services commerciaux et techniques.
Lignée technique (physique) Système à système, tables/champs, pipelines ETL Ingénieurs de données, architectes Traçabilité détaillée, prise en charge de l'analyse d'impact et du débogage Nécessite métadonnées importante métadonnées , ce qui peut être fastidieux.
Lignée opérationnelle Flux d'exécution en temps réel/quasi réel, journaux, métriques Équipes DevOps/SRE, Data Ops Améliore observabilité, prend en charge la surveillance et garantit la fraîcheur des données. Surcoût lié à l'infrastructure, peut nécessiter une intégration avec d'autres vues
Conception / Physique / Logique / Au niveau des colonnes Vues de variation : flux prévus, niveau d'abstraction, détails au niveau du champ Architectes, gouvernance des données Prend en charge les migrations, l'audit détaillé Très détaillé et exigeant en ressources ; peut nécessiter des outils spéciaux

Quand utiliser quel type de lignée de données

Le choix du type de traçabilité des données approprié dépend de la maturité, des objectifs et du profil de risque de votre organisation. Voici quelques scénarios :

  • Votre entreprise vient de se lancer dans la gouvernance des données . Commencez par la traçabilité des données. Associez les indicateurs clés de performance aux sources de données et aux principaux rapports, et assurez-vous que les utilisateurs comprennent ce qu'ils utilisent.
  • Vous disposez d'une architecture de données complexe, comprenant notamment de nombreux pipelines, transformations et systèmes. La traçabilité technique devient importante afin que vous puissiez suivre les dépendances et effectuer une analyse d'impact avant d'apporter des modifications.
  • Votre organisation exige des données actualisées en temps réel, dispose de streaming ou doit surveiller l'état des pipelines. Ajoutez une traçabilité opérationnelle afin de pouvoir détecter rapidement les pannes, les latences ou les anomalies.
  • Vous évoluez dans un domaine à haut risque, tel que la finance, la santé ou un secteur réglementé. Envisagez d'ajouter une traçabilité au niveau des colonnes ou une traçabilité fine afin de répondre aux exigences réglementaires et d'audit.
  • Vous migrez des systèmes, consolidez des entrepôts de données ou mettez en œuvre une nouvelle architecture. La traçabilité conceptuelle/logique est utile pour saisir le flux « prévu » et le comparer à ce qui se passe réellement.

Dans de nombreux cas, plusieurs types de lignées de données doivent coexister au sein d'une organisation. Pour obtenir une solution complète, il est souvent nécessaire de combiner les lignées commerciales, techniques et opérationnelles.

Considérations relatives à la mise en œuvre

Voici quelques considérations pratiques essentielles à prendre en compte lors de la mise en œuvre d'une initiative de traçabilité des données :

métadonnées et outillage métadonnées

  • Pour établir une lignée, vous avez besoin de métadonnées précises. métadonnées, telles que les sources de données, la logique de transformation, les détails du schéma, les journaux de tâches, etc.
  • Choisissez des outils adaptés au type de lignage que vous souhaitez. Il peut s'agir de catalogues de données pour le lignage métier ou de systèmes de surveillance des pipelines pour le lignage opérationnel.
  • Automatisez autant que possible. La documentation manuelle de la traçabilité est source d'erreurs et difficile à maintenir.

Granularité et portée

  • Déterminez à l'avance le niveau de détail dont vous avez besoin, par exemple au niveau du système, des tables, des colonnes ou des lignes. Un niveau trop grossier peut s'avérer peu utile. Un niveau trop fin peut être trop complexe.
  • Donnez la priorité aux actifs de données à forte valeur ajoutée, tels que les systèmes critiques et les données réglementées, plutôt que d'essayer de couvrir tous les actifs dès le premier jour.

partie prenante

  • Pour la lignée métier, veillez à ce que les équipes métier et techniques s'accordent sur les définitions. Évitez la dérive sémantique, qui se produit lorsque la signification des termes métier diverge de leur mise en œuvre.
  • Pour la lignée technique et opérationnelle, veillez à ce que les ingénieurs de données, les équipes opérationnelles, gouvernance et les équipes de gestion collaborent.

Visualisation et accessibilité

  • La traçabilité des données n'est utile que si les utilisateurs peuvent la consulter et l'utiliser. Les cartes graphiques de traçabilité, telles que les organigrammes et les graphiques de dépendance, facilitent la compréhension.
  • Adaptez la vue à votre public. Les utilisateurs professionnels souhaitent généralement une vue simplifiée et globale, tandis que les ingénieurs veulent une analyse détaillée des problèmes clés.

Maintenance et gouvernance

  • La traçabilité des données doit être mise à jour à mesure que les systèmes, les pipelines et la logique métier évoluent. Sans maintenance, elle devient obsolète et trompeuse.
  • Mettre en place gouvernance pour les propriétaires de données, les gestionnaires de données, les normes de documentation et les workflows de gestion des changements.

La plateforme Actian Data Intelligence prend en charge la traçabilité dynamique des données

La traçabilité des données est une fonctionnalité fondamentale pour les organisations modernes axées sur les données. Mais toutes les traçabilités ne se valent pas. Il est essentiel de comprendre les différents types de traçabilité des données :

  • Lignée (sémantique) commerciale relie les données à leur contexte commercial et à leurs utilisateurs.
  • Lignée technique (physique) retrace les détails pratiques du mouvement et de la transformation tout au long du cycle de vie d'un jeu de données.
  • Lignée opérationnelle (durée d'exécution) surveille les flux de données en temps réel prend en charge observabilité.
  • Sous-types supplémentaires conception / logique / niveau colonne apportent nuance et profondeur.

En sélectionnant les types de lignées adaptés au contexte de votre organisation, en alignant les parties prenantes, en déployant les outils et métadonnées appropriés et en intégrant gouvernance, vous pouvez considérablement améliorer la fiabilité des données. Vous pouvez également améliorer vos capacités d'audit, votre résilience opérationnelle et prise de décision .

La plateforme Actian Data Intelligence repose sur la technologie des graphes de connaissances et s'intègre parfaitement aux systèmes existants grâce à plus de 100 connecteurs. Prêt à découvrir ce que cette plateforme peut apporter à votre organisation ? Planifiez Fonctionnalités une démonstration personnalisée des Fonctionnalités de la plateforme.