Intelligence des données

Guide de la gestion de la qualité des données #1 - Les 9 dimensions de la qualité des données

Actian Corporation

1er avril 2022

Les 9 dimensions de la qualité des données

La qualité des données fait référence à la capacité d'une organisation à maintenir la qualité de ses données dans le temps. Si nous prenons au mot certains professionnels des données, l'amélioration de la qualité des données est la panacée à tous les maux de l'entreprise et devrait donc être la priorité absolue. 

Chez Zeenea, nous pensons que cela doit être nuancé : La qualité des données est un moyen parmi d'autres de limiter les incertitudes liées à la réalisation des objectifs de l'entreprise. 

Dans cette série d'articles, nous allons passer en revue tout ce que les professionnels des données doivent savoir sur la gestion de la qualité des données (DQM) :

    1. Les neuf dimensions de la qualité des données
    2. Les défis et les risques associés à la qualité des données
    3. Les principales caractéristiques des outils de gestion de la qualité des données
    4. La contribution du catalogue de données à DQM

Quelques définitions de la qualité des données

Demander une définition de la qualité des données à des analystes ou à des ingénieurs de données vous apportera des réponses très différentes - même au sein d'une même entreprise, parmi des profils similaires. Certains, par exemple, se concentreront sur l'unité des données, tandis que d'autres préféreront se référer à la normalisation. À vous d'interpréter.

La norme ISO 9000-2015 définit la qualité comme "l'aptitude d'un ensemble de caractéristiques intrinsèques à satisfaire des exigences".

DAMA International (The Global gestion des données Community) - une association internationale de premier plan regroupant des professionnels de la gestion des données , tant sur le plan commercial que technique - adapte cette définition au contexte des données : "La qualité des données est le degré auquel les dimensions des données répondent aux exigences.

L'approche dimensionnelle de la qualité des données

D'un point de vue opérationnel, la qualité des données se traduit par ce que nous appelons dimensions de la qualité des donnéesChaque dimension se rapporte à un aspect spécifique de la qualité.

Les quatre dimensions les plus souvent utilisées sont généralement l'exhaustivité, l'exactitude, la validité et la disponibilité. Dans la littérature, il existe de nombreuses dimensions et différents critères pour décrire la qualité des données. Il n'y a cependant pas de consensus sur la nature de ces dimensions.

Par exemple, DAMA énumère soixante dimensions, alors que la plupart des fournisseurs de logiciels de gestion de la qualité des données (DQM) n'en proposent que cinq ou six.

Les neuf dimensions de la qualité des données

Chez Zeenea, nous pensons que le compromis idéal est de prendre en compte neuf dimensions de la qualité des données: l'exhaustivité, l'exactitude, la validité, l'unicité, la cohérence, l'actualité, la traçabilité, la clarté et la disponibilité.

Nous illustrerons ces neuf dimensions et les différents concepts auxquels nous nous référons dans cette publication par un exemple simple :

Arthur est chargé d'envoyer des campagnes de marketing aux clients et prospects pour présenter les dernières offres de son entreprise. Il rencontre cependant certaines difficultés :

  • Arthur envoie parfois plusieurs fois des communications aux mêmes personnes.
  • Les courriels fournis dans son CRM sont souvent invalides.
  • Les prospects et les clients ne reçoivent pas toujours le bon contenu.
  • Certaines informations relatives aux prospects sont obsolètes.
  • Certains clients reçoivent des courriels contenant des qualifications erronées en matière de sexe.
  • Il existe deux adresses pour les clients/prospects, mais il est difficile de comprendre à quoi elles se rapportent.
  • Il ne connaît pas l'origine de certaines des données qu'il utilise ni la manière dont il peut accéder à leur source.

Voici les données dont Arthur dispose pour ses efforts de vente. Nous les utiliserons pour illustrer chacune des neuf dimensions de la qualité des données :

1. L'exhaustivité

Les données sont-elles complètes ? Y a-t-il des informations manquantes ? L'objectif de cette dimension est d'identifier les données vides, nulles ou manquantes. Dans cet exemple, Arthur remarque qu'il manque des adresses électroniques :

Pour y remédier, il pourrait essayer de déterminer si d'autres systèmes disposent des informations nécessaires. Arthur pourrait également demander à des spécialistes des données d'insérer manuellement les adresses électroniques manquantes.

2. Précision

Les valeurs existantes sont-elles cohérentes avec les données réelles, c'est-à-dire les données que nous trouvons dans le monde réel ?

Arthur a remarqué que certaines lettres envoyées à des clients importants sont renvoyées en raison d'adresses postales incorrectes. Ci-dessous, nous pouvons voir que l'une des adresses ne correspond pas aux formats d'adresse standard dans le monde réel :

Il pourrait être utile à Arthur d'utiliser des services de vérification des adresses postales.

3. Validité

Les données sont-elles conformes à la syntaxe de leur définition ? L'objectif de cette dimension est de s'assurer que les données sont conformes au modèle d'une règle particulière.

Arthur a remarqué qu'il recevait régulièrement des courriels non sollicités. Un autre problème est que certains prospects/clients ne reçoivent pas le bon contenu parce qu'ils n'ont pas été correctement qualifiés. Par exemple, l'adresse électronique annalincoln@apple n'a pas le bon format et le type de client Csutomer n'est pas correct.

Pour résoudre ce problème, il peut par exemple s'assurer que les valeurs de type de client font partie d'une liste de valeurs de référence (client ou prospect) et que les adresses électroniques sont conformes à un format spécifique.

4. cohérence

Les différentes valeurs d'un même enregistrement sont-elles conformes à une règle donnée ? L'objectif est d'assurer la cohérence des données entre plusieurs colonnes.

Arthur a remarqué que certains de ses clients masculins se plaignent de recevoir des courriels dans lesquels ils sont appelés "Mademoiselle". Il semble qu'il y ait une incohérence entre les colonnes "sexe" et "titre" pour Lino Rodrigez.

Pour résoudre ce type de problème, il est possible de créer une règle logique qui garantit que lorsque l'identifiant Sexe est Masculin, le titre doit être Monsieur.

5. Le respect des délais

Le délai entre la création des données et leur disponibilité est-il approprié ? L'objectif est de faire en sorte que les données soient accessibles le plus rapidement possible.

Arthur a remarqué que certaines informations sur les prospects ne sont pas toujours à jour parce que les données sont trop anciennes. La règle de l'entreprise veut que les données d'un prospect datant de plus de 6 mois ne soient pas utilisables.

Il pourrait résoudre ce problème en créant une règle qui identifie et exclut les données trop anciennes. Une autre solution consisterait à exploiter ces mêmes informations dans un autre système contenant des données plus fraîches.

6. Unicité

Y a-t-il des doublons ? L'objectif est de s'assurer que les données ne sont pas dupliquées.

Arthur a remarqué qu'il envoyait plusieurs fois les mêmes communications aux mêmes personnes. Lisa Smith, par exemple, se trouve en double dans le dossier :

Dans cet exemple simplifié, les données dupliquées sont identiques. Des algorithmes plus avancés tels que Jaro, Jaro-Winkler ou Levenshtein, par exemple, peuvent regrouper les données dupliquées avec plus de précision.

7. La clarté

La compréhension des métadonnées est-elle facile pour le consommateur de données ? Il s'agit ici de comprendre la signification des données et d'éviter les interprétations.

Arthur a des doutes sur les deux adresses données car il n'est pas facile de comprendre ce qu'elles représentent. Les noms Adresse 1 et Adresse 2 sont sujets à interprétation et devraient être modifiés, si possible.

Le changement de nom dans une base de données est souvent une opération compliquée qui doit être correctement documentée avec au moins une description.

8. Traçabilité

Est-il possible d'obtenir une traçabilité des données ? L'objectif est de retrouver l'origine des données, ainsi que les transformations qu'elles ont pu subir.

Arthur ne sait pas vraiment d'où viennent les données ni où il peut accéder aux sources de données. Il lui aurait été très utile de le savoir, car cela lui aurait permis de résoudre le problème à la source. Il aurait eu besoin de savoir que les données qu'il utilise avec son outil de marketing proviennent des données de l'entrepôt de données de l'entreprise, elles-mêmes issues de l'outil de gestion de la relation client.

9. Disponibilité

Comment les données peuvent-elles être consultées ou récupérées par l'utilisateur? L'objectif est de faciliter l'accès aux données.

Arthur ne sait pas comment accéder facilement aux données sources. En conservant le schéma précédent, il souhaite accéder sans effort aux données de l'entrepôt de données ou de l'outil de gestion de la relation client (CRM).

Dans certains cas, Arthur devra faire une demande officielle pour accéder directement à ces informations.

Obtenir notre Guide de gestion de la qualité des données pour les organisations pilotées par les données

Pour plus d'informations sur la qualité des données et la gestion de la qualité des données, téléchargez notre guide gratuit : "Guide de la gestion de la qualité des données".

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.