Pourquoi le nettoyage des données est-il important ?
Grâce à la numérisation des processus d'entreprise, une abondance de données est disponible pour l'analyse. La valeur ajoutée de ces données dépend en grande partie de la qualité et de l'intégrité des données utilisées pour l'analyse et la prise de décision. Prendre des décisions sur la base de données de mauvaise qualité et/ou inexactes augmente les risques de mauvais résultats en raison d'informations erronées. Les décisions prises en toute confiance doivent s'appuyer sur des données de haute qualité.
Où nettoyage des données Fits
Le nettoyage des données données fait partie d'un processus plus large de préparation des données qui suit généralement la séquence d'étapes suivante avant qu'une organisation puisse analyser les données :
- Données d'accès.
- Ingérer (ou récupérer) des données.
- Nettoyer les données.
- Format des données.
- Combiner des ensembles de données.
Le nettoyage des données décrit les outils et les techniques utilisés pour nettoyer des données grossières ou sales en comblant les lacunes, en filtrant les données non pertinentes, en dédupliquant et en formatant les données afin de les rendre plus précises et de meilleure qualité.
nettoyage des données Techniques
Il existe de nombreuses façons de rendre les données impropres à l'analyse. Vous trouverez ci-dessous une sélection de techniques utilisées pour affiner les données brutes ou améliorer leur qualité :
Déduplication et nettoyage des données
Il est essentiel de supprimer les copies des enregistrements dupliqués afin d'éviter les doubles comptages. Lors de la fusion de plusieurs ensembles de données, il est facile de créer des enregistrements en double. Dans une base de données relationnelle, il est facile d'utiliser le qualificateur UNIQUE pour ignorer les doublons, mais il est toujours utile de procéder à un dédoublonnage pour économiser de l'espace et des cycles de processeur . Les outils d'extraction, de transfert et de chargement (ETL) comparent les chaînes de caractères lors du traitement en dehors d'une base de données. Si vous déduisez à l'intérieur d'une base de données en utilisant une méthodologie d'extraction, de chargement et de transformation (ELT), c'est plus simple en SQL en utilisant SELECT UNIQUE et INSERT dans une table cible.
Améliorer la cohérence avec le nettoyage des données
La plupart des validations de données vérifient les valeurs autorisées, mais les différents systèmes ont souvent leurs propres règles quant à ce qu'ils considèrent comme valide. Par exemple, si un système enregistre les États américains sous la forme de deux caractères et qu'un autre utilise une liste déroulante avec les noms des États en toutes lettres, il est conseillé de normaliser un format et de mettre à jour les enregistrements pour que le format reste cohérent. L'utilisation de la même casse et du même type de données améliore également la cohérence.
Combler les lacunes
Si un champ est facultatif, il peut en résulter un fichier de données contenant des valeurs nulles. S'il existe une valeur par défaut raisonnable, elle peut être insérée pour supprimer les valeurs nulles. Dans une série de données, une valeur extrapolée ou interpolée peut aider à lisser les données.
Filtrage
Les enregistrements et les champs qui ne sont pas utiles en aval peuvent être filtrés pour améliorer la pertinence et la qualité des données. Les valeurs aberrantes doivent souvent être supprimées afin de ne pas fausser les résultats de l'analyse.
Transformation
Les champs tels que les formats de date sont souvent incohérents dans les ensembles de données sources. Les outils d'intégration de données tels que DataConnect vous permettent de définir des règles pour automatiser la transformation des champs. Il peut être nécessaire de masquer ou d'obscurcir les données privées pour maintenir la conformité.
Dans l'industrie manufacturière, les données des capteurs d'assurance qualité sont utilisées pour déterminer jusqu'où la production peut être poussée avant que la qualité n'en pâtisse. L'usine chinoise de Tesla produit désormais une nouvelle voiture toutes les 40 secondes.
Validation croisée
L'intégrité des données conduit à la confiance dans les données. Une façon d'évaluer la validité des données est de les comparer à d'autres systèmes d'enregistrement qui devraient avoir la même valeur. Les enregistrements identiques sont considérés comme valides ; les exceptions sont signalées et stockées séparément pour le nettoyage des données. Les catalogues de données peuvent enregistrement que les données sont valides et noter leur qualité en conséquence.
Qui effectue le nettoyage des données?
La fonction qui traite généralement du nettoyage des données est celle d'un ingénieur de données qui est responsable des pipelines de données et du traitement ETL. Le Chief Data Officer (CDO) veille à la qualité globale des données et à leur disponibilité pour les consommateurs. Les utilisateurs analytiques et les scientifiques des données sont des consommateurs de données nettoyées. Les ingénieurs des données doivent spécifier les changements apportés aux systèmes sources pour fournir des données plus propres.
Causes des données sales
Voici quelques scénarios qui conduisent à des données sales :
- La plupart des applications fonctionnent en vase clos car elles sont conçues pour répondre à un cas d'usage spécifique défini par un chef de produit, un analyste commercial, un concepteur de logiciel ou d'autres utilisateurs.
- Une mauvaise conception de l'interface utilisateur peut signifier que les champs facultatifs sont généralement laissés vides, et l'absence de boutons radio ou de valeurs déroulantes signifie généralement qu'une mauvaise saisie remplit les champs avec des déchets.
- Une mauvaise conception des données, telle que l'autorisation de plusieurs enregistrements ayant la même valeur de clé primaire, entraîne généralement des problèmes.
- L'absence de contraintes d'intégrité référentielle peut corrompre un schéma en utilisant des relations "un à plusieurs" qui devraient être des relations "un à un".
- La maintenance des logiciels et l'évolution des activités conspirent souvent pour créer des bogues qui ont un impact sur l'intégrité des données.
- L'absence de validation dans le traitement de l'intégration des données peut entraîner des fuites de données erronées dans un système en aval. Par exemple, un système d'automatisation du marketing mal configuré peut introduire des pistes en double dans un système de vente conçu pour l'enregistrement un seul contact avec une adresse électronique unique comme clé primaire.
Automatiser la qualité des données
Les solutions d'intégration de données telles que DataConnect permettent aux ingénieurs de données de mettre en place des pipelines de données qui effectuent un traitement de qualité des données à l'aide de règles. Les champs peuvent être remplis par défaut, les plages de valeurs peuvent être vérifiées, les types de données peuvent être modifiés et les fonctions de transformation peuvent effectuer des mises à jour plus sophistiquées.
Actian contribue à la qualité des données
plateforme de données Actian comprend une solution d'intégration hybride très évolutif qui fournit des données de haute qualité pour l'unification, la transformation et l'orchestration des pipelines de données. DataConnect est une plateforme d'intégration intelligente à code bas qui répond aux cas d'utilisation complexes avec des intégrations automatisées, intuitives et réutilisables.
Pour en savoir plus, visitez notre page sur plateforme de données Actian.