Les données synthétiques sont des données fabriquées artificiellement plutôt que générées par des événements réels. L'intelligence artificielle (IA) génère des données synthétiques qui remplacent les données réelles pour l'apprentissage modèles d'apprentissage automatique et la prédiction des résultats. Les résultats analytiques obtenus à partir de données synthétiques sont identiques à ceux obtenus à partir de données réelles, car les données sont structurellement et statistiquement identiques.
Pourquoi les données synthétiques sont-elles importantes ?
Les données synthétiques sont utilisées pour valider les modèles mathématiques et pour entraîner modèles ML. Elles peuvent être générées à partir d'un échantillon de données réelles. Leur volume peut être ajusté au niveau requis pour répondre aux besoins de l'application d'analyse ou de test. Si les données réelles n'existent pas dans le monde réel, un modèle de ML peut être développé pour générer des données représentatives afin de tester les applications avant que les utilisateurs réels ne soient disponibles.
Ce type de données est modifié pour simuler des scénarios possibles et estimer leur incidence sur les résultats. Par exemple, un scénario peut essayer des entrées ou des chemins non valides ou inhabituels dans les applications de test. Les développeurs s'en tiennent généralement aux cas d'utilisation traditionnels parce qu'ils veulent que leurs applications fonctionnent comme prévu. En revanche, les équipes d'assurance qualité (AQ) recherchent les problèmes potentiels car leur rôle est d'améliorer une application en explorant des cas d'utilisation que les développeurs n'ont peut-être pas envisagés.
Souvent, des réglementations telles que les informations personnelles identifiables (PII) exigent que les données réelles ne soient pas conservées afin de protéger la vie privée des individus. Dans ce cas, des données synthétiques peuvent remplacer les données réelles. Cela réduit l'exposition de l'organisation à la divulgation accidentelle de données, tout en fournissant une analyse des tendances indispensable, qui peut être utilisée pour prendre des décisions fondées sur des données.
Défis liés aux données synthétiques
Aucun modèle de données n'est fidèle à 100 % aux données réelles, mais il partage les caractéristiques du jeu de données réel. Les données synthétiques nécessitent généralement une validation supplémentaire, telle que la comparaison des résultats générés avec des informations réelles annotées par l'homme. Si l'échantillon de données réelles est trop petit, la précision des données générées s'en ressentira. De nombreuses applications doivent utiliser des données synthétiques parce que les données réelles sont impossibles à obtenir ou n'existent pas. Dans ce cas, les données sont générées à partir d'hypothèses qui peuvent invalider l'analyse parce qu'elle n'est pas basée sur des données empiriques.
Exemples d'applications de données synthétiques
Les exemples ci-dessous démontrent l'utilité des données synthétiques :
- Les sociétés financières créent ce type de données contenant des modèles d'activité qui pourraient résulter de transactions bancaires ou de cartes de crédit frauduleuses. Ces données sont utilisées pour développer des algorithmes de détection des fraudes plus robustes.
- Le partage de données réelles en dehors d'une entreprise ou des frontières nationales peut être limité en raison des réglementations relatives à la protection de la vie privée. Les données synthétiques ne sont pas soumises à de telles restrictions, ce qui permet de partager des ensembles de données en dehors d'une organisation ou au-delà des frontières.
- Dans le domaine de l'assurance, les fausses demandes d'indemnisation peuvent faire l'objet d'un profil. Les fraudeurs qui utilisent avec succès une approche tenteront le même exploit contre d'autres assureurs. Des données synthétiques peuvent être générées par l'assureur concerné et partagées par l'ensemble du secteur afin d'améliorer la détection des fraudes potentielles.
- Les voitures auto-conduites génèrent des données de capteurs, que des données synthétiques peuvent augmenter pour entraîner algorithmes d'auto-conduite afin d'améliorer la détection des dangers potentiels avec une plus grande précision. Le service de taxi sans chauffeur Google Waymo utilise cette approche avec succès.
- Les applications de langage naturel telles qu'Amazon Alexa utilisent des données synthétiques pour améliorer la cognition sans risquer de porter atteinte à la vie privée en partageant des conversations réelles.
- Le personnel chargé de l'assurance qualité dans les équipes de développement de logiciels utilise des données synthétiques générées pour tester la fonctionnalité des applications. Les données générées peuvent être utilisées pour tester l'utilisation valide et invalide de l'application afin de s'assurer que la gestion des exceptions est codée et fonctionne comme prévu. Les mêmes données de test peuvent être utilisées pour tester la régression des futures itérations de l'application afin de s'assurer que les correctifs ne cassent pas ce qui fonctionne actuellement.
- La délocalisation des tests d'assurance qualité dans des lieux éloignés comme l'Inde, par exemple, est une pratique courante. L'utilisation de données synthétiques basées sur des données réelles recueillies auprès d'utilisateurs américains facilite l'assurance qualité dans d'autres lieux.
- Des données synthétiques basées sur des données réelles dont le contenu a été vérifié par des humains peuvent être utilisées pour réduire les biais dans les modèles de ML.
Bénéfices
Les avantages de l'utilisation de données synthétiques sont les suivants
- Réduire le risque de conformité pour le partage des données transfrontalier partage des données , car les réglementations telles que le Règlement général sur la protection des données (RGPD) ne s'appliquent qu'aux données réelles de l'utilisateur . Les approches traditionnelles qui comportent plus de risques sont l'anonymisation ou l'obscurcissement des données. Les données synthétiques générées éliminent les risques liés à la protection de la vie privée.
- Réduire les biais dans l'apprentissage automatique en utilisant des volumes plus importants de données représentatives.
- Augmenter la précision des modèles de ML avec plus de données d'apprentissage .
- Réduire le risque cybernétique en remplaçant les données réelles par des données synthétiques.
- Évaluer les changements. Les données synthétiques peuvent être modifiées pour changer les résultats en fonction des changements environnementaux simulés appliqués au modèle ML. Lorsqu'une entreprise envisage de modifier un produit, comme la mise à jour d'une caméra dans un véhicule autonome, son impact peut être évalué dans un premier temps à l'aide de données d'essai synthétiques.
Actian facilite l'accès aux données
La plateforme de données Actian La plateforme de données Actian transforme votre entreprise en simplifiant la façon dont vous connectez, gérez et analysez les données sur site et à travers un ou plusieurs clouds. La La plateforme de données Actian peut héberger des projets analytiques à travers de nombreuses instances dans une seule plateforme connectée.