Guide du profane sur l'apprentissage automatique et la confidentialité des données des clients
On j'ai l'impression que c'était hier que le « machine learning » et « l’intelligence artificielle » étaient assimilés à de la science-fiction par la plupart gens personnes en dehors du monde de la technologie. En tant que cinéphiles , nous avons une longue longue collaborations ces concepts à des robots dotés de conscience de soi ou à des programmes informatiques rebelles qui pourraientpourraient s'échapper des laboratoires où ils ont été créés et menacer l' l’humanité. Mais en 2020, l’apprentissage automatique et l’IA ont été considérablement démystifiés. Et pourtant, même s’il semble désormais moins probable que la Singularité soit déclenchée par le imprudencemoins d’ambition de une start-up technologique, les consommateurs ont de nouvelles raisons de s'inquiéter.
Oui, le machine learning et l'IA se généralisent, et cela ne concerne pas uniquement les start-ups en quête de disruption qui à exploiter ces technologies.entreprises issues d’un large éventail de secteurs sectors bien établis trouvent de solides raisons commerciales de financer ces projets projets et les faire sortir sortir du laboratoire en production, avec de nombreuses implications passionnantes pour leurs clients.
À propos del'implication, qui fait l'objet de cet article, est la création d'une nouvelle catégorie de données à caractère personnel vulnérabilité.. Et une majorité de buentreprises qui souhaitent tirer parti du ML doivent devoir apprendre à protéger sesde leurs clientss contre ces nouvelles vulnérabilités.
Lece cpréoccupations surgissent en premier lieu parce queil «modèles» qui permettent au ML de fonctionner doivent être entraînés à l'aide de données – en grande quantité. Alors que les entreprises cherchent à créer de la valeur commerciale à partir de ces nouveaux programmes de ML (tels que les agents conversationnels, en temps réelen temps réel , l'analyse des risques et de la fraude, ainsi que la médecine prédictive), ils vont entraîner modèles à l'aide de données clients de quelque nature que ce soit. Dans de nombreux cas, il s'agit de données clients extrêmement confidentielles.
Alors que nous entrons dans ce qui marque sans aucun doute une nouvelle ère en matière de sensibilisation des consommateurs aux droits relatifs à la protection des données, parallèlement à l'entrée en vigueur de nouvelles réglementations telles que le RGPD et CCPA, le moment est venu de réfléchir à la manière dont le ML et la protection des données des consommateurs vont coexister.
Ce n'est plus un problème hypothétique
Malheureusement, une partie du dentifrice s'est déjà échappée du tube. Plusieurs récentes controverses révèlent l'ampleur potentielle du problème lié au ML et à la confidentialité des données clients. Google (dont l'accord de partage des données de santé avec avec Ascension a fait l'objet d'un examen minutieux en novembre) a abandonné ses projets de publication de radiographies thoraciques, craignant qu’elles ne contiennent des informations permettant d’identifier les personnes. Le Royal Free London NHS Foundation Trust, une division du Service national de santé britannique basée à Londres, a fourni à DeepMind, filiale d'Alphabet, des données concernant 1,6 million de patients sans leur consentement. L'été dernier, Microsoft a discrètement supprimé un ensemble de données (MS Celeb) contenant des images de plus de 10 millions de personnes après qu’il a été révélé que certaines d’entre elles n’étaient pas savaient qu'elles avaient été incluses.
Et il s'avère queque ceux d’entre nous qui»ont avons ontj'ai un sentiment étrange quandchaque fois nous exprimonsnos nos désirs les plus profonds à un moteur de réalisation de souhaits basé sur l'IA, et de bonnes bonnes récents qui ont révélé l'utilisation abusive potentielle d' enregistrements recueillies pour améliorer l'intelligence uneassistants tels que Siri et Google Assistant. En avril, Bloomberg a révélé qu'Amazon ae avait utilisaitg contratsous-traitants ttranscrire et annoter enregistrements extraits provenant des appareils équipés d'Alexa, ce qui a incité l'entreprise à déployer de nouveaux outilsutilisateur qui permettent de supprimer vos données stockées dans le cloud.
Pourquoi le machine learning aggrave les problèmes de confidentialité des données
Dans une base de données, on peut distinguer les différentes données associées à une personne, du point de vue de la protection de la vie privée, par la catégorie d'informations qu'ils contiennent. Un jeu de données compose de «points de données» (éléments spécifiques d’une population) et «caractéristiques» (les valeurs des attributs associés à chaque personne). Dans le cas des dossiers médicaux, par exemple, les caractéristiques pourraient être leur nom, l'âge, sexe, État, religionet maladie. La première colonne représente les informations personnelles identifiables (PII), qui identifient de manière unique une personne, par exemple: son nom complet ou son numéro de sécurité sociale. Le deuxième type de caractéristique contenu est appelé « quasi-identificateurs » (QI) ; il s'agit de catégories telles que l'âge ou le sexe, qui peuvent s'appliquer à plusieurs personnes. Par conséquent, ces informations ne sont pas suffisantes à elles seules pour l'identification. Toutefois, si elles sont combinées avec d'autres QI et des informations externes, il est parfois possible de «réidentifier» une personne.
Traditionnellement, le fait de supprimer la colonne contenant des informations sensibles dans un jeu de données que ces informations spécifiques ne pouvaient pas être déduites à partir de jeu de données , mais uniquement en combiner et interroger informations externes. L'IA, cependant, peut recréer des identités même lorsque l'indicateur d'identité a été supprimé. À partir d'un ensemble de CV candidats, par exemple, le sexe pourrait être supprimé afin de prévenir toute discrimination fondée sur le genre lors de la processus d’évaluation . Bien que les CV aient été anonymisés en ce sens, un outil d'apprentissage automatique pourrait être capable de détecter des nuances subtiles dans l'utilisation du langage et d'en déduire le sexe du candidat. Dans ce cas, la suppression de la colonne ne suffit pas à éliminer les informations sensibles de manière sécurisée.
Historiquement, les technologies d'IA n'ont pas été développées en tenant compte de la protection de la vie privée . Pour Pour atteindre des niveaux de précision fiables, les modèles ont besoin de vastes jeux de données desquels « apprendre ». Afin de protéger la vie privée des individus dans le contexte du big data, différentes techniques d’anonymisation ont été traditionnellement utilisées. Les trois plus pertinentes sont l’anonymat K, la-diversité et la-proximité, dont nous examinerons brièvement la première. Dans l'anonymat-anonymat, certains Qquasi-Iidentificateurs (par exemple: nom, religion) de certains individus sont supprimées ou généralisées (par exemple: en remplaçant un âge précis par une tranche d’âge) de sorte que chaque combinaison de caractéristiques révélatrices d’identité apparaisse dans au moins k lignes différentes du jeu de données. L’anonymat K est une technique de « dissimulation dans la foule » visant à protéger la vie privée. Jef chaque individu fait partie d’un groupe plus large, n’importe lequel des enregistrements pourrait correspondre à une seule personne. La diversité L et T-proximité sont des extensions de ce concept, décrites plus en détail ici. Ces modifications seraient appliquées avant le partage des données ou utilisées dans un apprentissage .C'est ce qu'on appelle la publication de données préservant la confidentialité. Cependant, avec l'essor de l'IA, cette forme de protection est insuffisante.
Modélisation statistique méthodes de modélisation ne pourraient prendre en compte qu'un nombre limité de variables. Mais aujourd'hui, grâce à grâce à techniques de régularisation et la dédélinbaisse coût ,, it est désormais possible pour modèles ML de de prendre en compte des milliers de variables à partir desquelles pour faire une seule prédiction. Avec des algorithmes capables de tirer des conclusions à partir de jeux de données aussi vastes et complexes, trois nouveaux problèmes conceptuels se posent.Premièrement, avec l’ dimensionnalité accrue apprentissage en ML, il y a implicitement maintenant une risque probabilité que des informations sensibles y soient incluses. Deuxièmement, ces nouveaux modèles puissants sont plus susceptibles d’être capables de discerner ces informations sensibles (par exemple: déterminer le sexe à partir de différences subtiles dans choix ). Et troisièmement, garantir une confidentialité et un anonymat complets pour les énormes quantités de données intégrées dans les modèles complexes d'apprentissage automatique. se présente constitue un défi majeur.
Introduction à l'apprentissage automatique préservant la confidentialité
Pour relever ces défis, il existe un certain nombre de techniques prometteuses en cours d’essai pour assurer une protection adéquate des la confidentialité des données dans le cadre de l'apprentissage automatique. Parmi celles-ci figurent l'apprentissage fédéré, la confidentialité différentielleet le chiffrement homomorphe. Dans l'ensemble, ces technologies en sont encore aux premiers stades d'exploration quant à leur utilisation potentielle pour protéger la confidentialité des données des consommateurs dans le ML à grande échelle, et sont entre les mains de chercheurs universitaires ou de grandes. acteurs technologiques. Lesquelsde ces deviendra le norme et comment elles serontcrêtecomblent pour répondre aux besoins du ML en production reste à .
Apprentissage fédéré
FederL'apprentissage un exemple de l'approche plus générale consistant à « amener le code vers les données, plutôt que les données vers le code », et aborde ainsi traite certaines les problèmes problèmes de confidentialité, de propriété et physique localisationdes données des données. L'apprentissage fédéré est une approche collaborative qui implique apprentissage modèles d'apprentissage automatique sur un vaste ensemble de décentralisées présentes sur plusieurs appareils clients. Le modèle est entraîné sur les appareils clients, ce qui évite ainsi tout transférer les données utilisateur. En conservant ses données personnelles sur l’appareil du client lui permet de de conserver un contrôle direct et physique de ses propres données. Le fait de conserver les échantillons de données sur les appareils des clients, sans qu’il soit nécessaire d’échanger ces échantillons, permet à plusieurs parties de développer un modèle communM sans avoir à repartager toutes les données entre eux ce qui crées qui au même endroit en un seul endroit.
Google, pionnier de l'apprentissage fédéré, a utilisé l'apprentissage fédéré pour la personnalisation de son Gboard sur des dizaines de millions d'appareils iOS et Android. Etclancement du du Pixel 4, Google a dévoilé une version améliorée de son fonctionnalité de reconnaissance musicale « Now Playing »» qui qui regroupe le nombre d'écoutes des morceaux de manière fédérée, identifiant ainsi les morceaux les plus populaires dans une zone géographique.
Parmi les inconvénients de l'approche de l'apprentissage fédéré, on peut citer le fait que elle nécessitede beaucoup de puissance de traitement et de mémoire de la part des appareils fédérés. De plus, comme les modèles ne peuvent être entraînés que lorsque les appareils sont connectés et capables de transférer des données, cela peut introduire un biais situationnel dans les données qui alimentent le modèle. Par exemple, un utilisateur écouter différentes sources musicales (uned donc différentes chansons) lorsqu’il est le Wi-Fi par rapport aux les données mobiles. Enfin, l'apprentissage fédéré est vulnérable aux «attaques par empoisonnement», dans lesquelles un réseau antagoniste génératif (ou GAN) peut se faire passer pour un participant inoffensif afin de prendre le contrôle du modèle.
Confidentialité différentielle
Ddifférentiel Pconfidentialité is a prometteuse, sinon nouvelle, approche à la préservation de la vie privée dans le ML. Développé par Cynthia Dwork et al chez Microsoft en 2006, DP vise à garantir qu'aucun individu ne puisse être associé à cesles données utilisées pour entraîner modèle d'apprentissage automatique. Cela ne signifie pas que l'on ne peut rien découvrir sur un individu idans un jeu de données. Par exemple, la publication de données qui montrentune montrerait révèlerait révèlerait des informations sensibles concernant une personne connue pour fumer. L’objectif ultime en matière de confidentialité est plutôt de garantir que tout ce qui peut être appris sur une personne à partir des informations publiées puisse l’être sans que les données de cette personne ne soient incluses. En termes généraux, un algorithme est «différentiellement privé» si un observateur examinant le résultat n’est pas en mesure de déterminer si les informations d’une personne spécifique ont été utilisées dans le calcul.
DP vise à protéger la vie privée des individus en ajoutant du bruit aléatoire au jeu de données une méthode soigneusement déterminée , ce qui conduira à la «perturbation» de la réponse réelle. La réponse réelle plus le bruit est toujours est renvoyée en sortie à utilisateur. Le degré de perturbation peut être pris en compte de manière à ce que la précision globale ne diminue pas de manière significative, tandis que pour chaque donnée, il subsiste toujours un certain degré de « déni plausible » en raison du caractère aléatoire du bruit.
Un aspect aspect de la protection des données est qu’elle est généralement compatible avec, voire bénéfique pour, une analyse pertinente des données malgré son niveau élevé de protection. En sciences empiriques, il existe souvent la menace «surapprentissage» des données pour permettre des conclusions spécifiques à jeu de données, et perdent en précision lorsque les prédictions sont généralisées à l'ensemble de la population. Parce que DP offre également une protection contre ce type de surapprentissage, ses avantages vont donc bien au-delà de la sécurité des données.
Apple utilise depuis longtemps une forme de DP depuis 2017 pour identifier les emojis populaires, les préférences de lecture multimédia dans Safari, et bien plus encore. LLa société a combiné le DP avec Federated La intégré dans la dernière version de son système d'exploitation mobile (iOS 13). Ces deux techniques contribuent à améliorer les résultats fournis par Siri, ainsi que par des applications telles que Apple QuickType et la fonction « Trouver » In Apps. Cette dernière analyse à la fois l'application Calendrier et l'application Mail à la recherche des noms des contacts et des appelants dont les numéros ne sont pas enregistrés localement.
Chiffrement homomorphe
Homomorphe Le chiffrement, tout comme la protection des données, n'est pas nouveau, mais il connaît un regain d'intérêt en raison de son utilité potentielle pour la préservation de la vie privée dans le domaine de l'apprentissage automatique. L'idée essentielle est que nous pouvons utiliser des données sous forme chiffrée pour entraîner faire fonctionner le modèle d'apprentissage automatique. Source :: «Le chiffrement homomorphe est une forme de chiffrement qui permet d'effectuer des calculs sur du texte chiffré, générant ainsi un résultat chiffré qui, une fois déchiffré, correspond au résultat des opérations effectuées sur le texte en clair.» Par exemple, cela signifie que vous pourriez utiliser «Qhjr Thykhjr» (en utilisant le chiffrement de César) dans unn ML apprentissage à la place de mon nom (Jack Mardack), et renvoyer un résultat chiffré de la même manière. Vous pouvez également chiffrer le modèle ML modèle lui-même, ce qui est utile dans cas de l'apprentissage fédéré, où il est nécessaire de transférer le modèle vers les données (par exemple: vers l'appareil du client). Cela signifie que vous pouvez protéger le modèle lui-même par le biais du chiffrement, ainsi que les apprentissage .
Il peut sembler évident de recourir au chiffrement pour protéger les données, mais l'intérêt de cette approche est considérablement réduit en raison de son impact sur les performances. Les bibliothèques de chiffrement homomorphe ne tirent pas parti de l'accélération matérielle moderne, ce qui rend les modèles d'apprentissage automatique environ 10 fois plus lents que les autres approches. Cependant, des équipes de recherche chez Intel, Facebook et IBM (entre autres) s'efforcent de combler cet écart.
Le chiffrement homomorphe suscite naturellement beaucoup d'intérêt dans les cas d'utilisation du ML d'autant plus les secteurs secteurs secteurs, comme la santé et le secteur bancaire, où la possibilité d'un chiffrement de bout en bout est hautement souhaitable.
Conclusion
Nous nous trouvons à un tournant intéressant, c'est certain .. Il existe un consensus quasi général sur le fait que le ML et l'IA sont sur le point de transformer l'expérience humaine à bien des égards dimensions , de la façon dont nous prenons en bonne santé, à la façon dont nous travaillons et créons, en passant par la facilitation d'une myriade d'activités humaines quotidiennes.
Mais il semble que les enjeux en matière de risques et d'avantages évoluent pour les consommateurs. Jusqu'à présent, les avantages liés au partage de nos données avec des entreprises commerciales étaient relativement modestes : il s'agissait des fils d'actualité plus personnalisés dans nos applications sociales ou des recommandations plus pertinentes de la part sites de sites de commerce électronique sur lesquels nous effectuons des achats. Très sbientôt, cependant, les avantages que nous pourrons tirer du ML et de l'IA seront bien, bien plus importants. Il n’est pas exagéré de dire que ces technologies feront la différence entre la vie et la mort pour beaucoup d’entre nous. Mais, la nature des données que nous devrons partager pour en tirer parti est également bien plus sensible, ce qui expose les consommateurs à des risques sans précédent. L’interaction entre ces deux aspects va déterminer à la fois notre adoption (la volonté avec nous partagerons nos données les plus personnelles), ainsi que l’ évolution future de la protection de la vie privéedes , telles que celles décrites ci-dessus.
À cet égard, l'apprentissage automatique respectueux de la vie privée n'en est qu'à ses balbutiements. Les travaux à à ce jour sur ces fronts ont été menés presque exclusivement par des chercheurs sur la base de leurs propres hypothèses concernant la nature des attaques ou de violations susceptibles de se produire. Contrairement, par exemple, au niveau de protection dont nous bénéficions aujourd’hui contre les virus informatiques aujourd’hui (qui s’appuie sur des décennies d’attaques réelles), nous n’avons aucune idée de ce que les « méchants » faire réellement. Il faudra attendre de voir, puis apprendre, s’améliorer et rattraper notre retard.
Pour en savoir plus : Un grand laboratoire pharmaceutique a désormais accès aux données génétiques de 23andMe. Faut-il s'en inquiéter ?