Blog | Intelligence des données | | 4 min de lecture

Guide to Data Quality Management #4 - catalogue de données Contribution to DQM

Contribution Gestion de la qualité des données

Résumé

  • Un catalogue de données pas un outil complet de gestion de la qualité des données et ne doit pas se substituer aux contrôles de qualité effectués à la source ou au cours des flux de transformation.
  • Son rôle consiste à support indirectement support la qualité support en améliorant la clarté, la traçabilité, la disponibilité et la visibilité des métadonnées relatives à la qualité.
  • Les contrôles qualité sont plus efficaces lorsqu'ils sont mis en place dès les premières étapes des systèmes sources et des pipelines, où les problèmes peuvent être corrigés à moindre coût.
  • Lorsque les environnements de données gagnent en complexité, des outils spécialisés de gestion de la qualité des données (DQM) sont nécessaires pour assurer la qualité à travers les différents systèmes et les transformations.
  • La meilleure approche est progressive : améliorer les contrôles du système source, utiliser un catalogue de données la visibilité et la compréhension, et intégrer des outils de qualité spécialisés lorsque cela s'avère nécessaire.

La qualité des données désigne la capacité d'une organisation à maintenir la qualité de ses données en temps opportun. Si l'on en croit certains professionnels des données, l'amélioration de la qualité des données serait la panacée à tous nos problèmes commerciaux et devrait donc constituer la priorité absolue.

Nous estimons qu'il convient de nuancer ce point : la qualité des données est un moyen, parmi d'autres, de réduire les incertitudes liées à la réalisation des objectifs de l'entreprise.

Dans cette série d'articles, nous allons passer en revue tout ce que les professionnels des données doivent savoir sur la gestion de la qualité des données (DQM) :

  1. Les neuf dimensions de la qualité des données
  2. Les défis et les risques liés à la qualité des données
  3. Les principales caractéristiques des outils de gestion de la qualité des données
  4. La contribution du catalogue de données à DQM

Un catalogue de données n'est pas un outil DQM

Un élément essentiel est qu'un catalogue de données ne doit pas être considéré comme un outil de gestion de la qualité des données en soi.

Tout d'abord, l'un des principes fondamentaux au cœur de la qualité des données est que les contrôles devraient idéalement avoir lieu dans le système source. L'exécution de ces contrôles uniquement dans le catalogue de données - plutôt qu'à la source et dans le flux de transformation des données - augmente le coût global de l'entreprise.

En outre, un catalogue de données doit être à la fois complet et peu intrusif pour faciliter son déploiement rapide au sein de l'entreprise. Ceci est tout simplement incompatible avec la nature complexe de la transformation des données et la multitude d'outils utilisés pour effectuer ces transformations.

Enfin, un catalogue de données doit rester un outil simple à comprendre et à utiliser.

Comment un catalogue de données contribue-t-il à la gestion de la qualité ?

Si le catalogue de données n'est pas un outil de qualité des données, sa contribution au maintien de la qualité des données est néanmoins substantielle. Voici comment :

  • Un catalogue de données permet aux consommateurs de données de comprendre facilement les métadonnées et d'éviter les interprétations hasardeuses. interprétations hasardeuses des données. Il fait écho à la dimension de clarté de la qualité ;
  • Un catalogue de données donne une vue centralisée de toutes les données d'entreprise disponibles.. Les informations sur la qualité des données sont donc des métadonnées comme les autres qui portent une valeur et doivent être mises à la disposition de tous. Elles sont faciles à interpréter et à extraire, ce qui fait écho aux dimensions d'exactitude, de validité, de cohérence, d'unicité, d'exhaustivité et d'actualité.
  • Un catalogue de données possède des capacités de traçabilité des données (Data Lineage), faisant écho à la dimension de traçabilité de la qualité ;
  • Un catalogue de données permet généralement un accès direct aux sources de donnéesce qui fait écho à la dimension "disponibilité" de la qualité.

La stratégie de mise en œuvre du DQM

Le tableau suivant détaille la prise en compte de la qualité des données en fonction des différentes solutions disponibles sur le marché :

Comme indiqué plus haut, les contrôles de qualité devraient, par défaut, être effectués directement dans le système source. L'intégration de ces contrôles dans un catalogue de données améliorer utilisateur , mais elle n'est pas indispensable compte tenu de ses limites, car la qualité des données n'est pas intégrée au flux de transformation.

Cela dit, lorsque les structures des systèmes deviennent trop complexes et qu'il faut, par exemple, regrouper des données provenant de différents systèmes régis par des règles fonctionnelles différentes, le recours à un outil de gestion de la qualité des données devient incontournable.

La stratégie de mise en œuvre dépendra des cas d'utilisation et des objectifs de l'entreprise. Il est néanmoins judicieux de mettre en place la qualité des données de manière progressive afin de :

  1. Assurez-vous que les systèmes sources ont mis en place les règles de qualité appropriées.
  2. Mettre en place un catalogue de données pour améliorer la qualité sur les plans de la clarté, de la traçabilité et/ou de la disponibilité ;
  3. Intégrer la qualité des données dans les flux de transformation avec un outil spécialisé tout en important ces informations automatiquement dans le catalogue de données via des API.

Conclusion

La qualité des données fait référence à la capacité d'une entreprise à maintenir la durabilité de ses données dans le temps. Nous la définissons à travers le prisme de neuf des soixante dimensions décrites par DAMA International : l'exhaustivité, l'exactitude, la validité, l'unicité, la cohérence, l'actualité, la traçabilité, la clarté et la disponibilité.

En tant que fournisseur de catalogue de données , nous rejetons l'idée qu'un catalogue de données est un outil de gestion de la qualité à part entière. En fait, il ne s'agit que d'un moyen parmi d'autres de contribuer à l'amélioration de la qualité des données, notamment à travers les dimensions de clarté, de disponibilité et de traçabilité.

Télécharger l’eBook