Gestion des données

Guide du profane sur l'apprentissage automatique et la confidentialité des données des clients

Actian Corporation

16 janvier 2020

tirer parti de l'apprentissage automatique pour améliorer l'analyse des données d'entreprise

C'est comme si c'était hier. J'ai l'impression que c'était hier que "Machine Learning" et "Artificial Intelligence" étaient assimilés à de la science-fiction par la la plupart des ordinaires personnes en dehors de la technologie. En tant que cinéma culture cinématographique, nous avons a longue histoire de l'association d'associerl'histoire. Ces concepts sont depuis longtemps associés à des robots conscients d'eux-mêmes ou à des programmes informatiques malveillants qui césentant un danger pour la santé. s'échapper des laboratoires où ils ont été créés et menacer l'ensemble de la société. l'humanité l'humanité. Mais en 2020, le ML et l'IA ont été considérablement démystifiés. Et pourtant, même s'il semble moins probable aujourd'hui que la Singularité soit déclenchée par les technologies de l'information et de la communication. soit déclenchée par le réconciliermoins l'ambition de d'une de l'ambition d'une startup technologique, les consommateurs ont de nouvelles raisons de s'inquiéter.

Oui, la ML et l'IA se généralisentet ce n'est pas seulement startups à l'esprit disruptif qui qui tirent parti de ces technologies. Entreprises dans un large éventail de secteurs établies trouvent de solides raisons commerciales de financer ces technologies de pointe. avancés projets et les faire sortir du laboratoire à la production, avec de nombreuses implications passionnantes pour leurs clients.

Unee implication, qui fait l'objet de cet article, est la création d'une nouvelle catégorie de données personnelles vulnérabilitéies. Et une majorité de businesses qui veulent tirer parti de la ML vont devoir de l'information et de la communication. leleurs clientss de ces nouvelles vulnérabilité.

Lesse concernations se posent en premier lieu parce que le "modèles"qui permettent au ML de fonctionner doivent doivent être formés à partir de données - beaucoup de données. Alors que les entreprises cherchent à créer de la valeur commerciale à partir de ces nouveaux programmes de ML (tels que les agents conversationnels, temps réele l'analyse des risques et des fraudes en temps réel, et les soins de santé prédictifs), ils vont entraîner leurs modèles avec des données clients d'une manière ou d'une autre. de la santé), ils vont entraîner leurs modèles avec des données clients de quelque nature que ce soit. Dans de nombreux cas, il s'agit de données clients profondément privées.

Alors que nous entrons dans ce qui est certainement une nouvelle ère de sensibilisation des consommateurs aux droits à la confidentialité des données, combinée à l'avènement de nouvelles réglementations telles que le GDPR et le CCPAil est opportun d'envisager la manière dont les ML et la confidentialité des données des consommateurs coexisteront.

Un problème qui n'est plus hypothétique

Malheureusement, une partie du dentifrice s'est déjà échappée du tube. Un certain nombre de controverses récentes révèlent l'ampleur potentielle du problème de la ML et de la confidentialité des données des clients. Google (dont l'accord de partage des données données de santé avec Ascension a fait l'objet d'un examen minutieux en novembre) a abandonné son projet de publier des radiographies du thorax, craignant qu'elles ne contiennent des informations personnellement identifiables. Le Royal Free London NHS Foundation Trust, une division du service national de santé britannique basée à Londres, a fourni des radiographies du thorax à la Commission européenne, a fourni DeepMind d'Alphabet des données sur 1,6 million de patients sans leur consentement. L'été dernier, Microsoft a discrètement discrètement un ensemble de données (MS Celeb) contenant des images de plus de 10 millions de personnes après qu'il a été révélé que certaines d'entre elles n'étaient pas au courant de l'existence de ces données. conscientes qu'elles avaient été incluses.

Et Il s'avère quet ceux d'entre nous qui'ont l'ont de lating un sentiment de terreur quandtoujours nous exprimionsl'un nos désirs les plus profonds à à un moteur moteur de réalisation de souhaits basé sur l'IAde l'IA, avait raison raison de le faire. Apple et Google ont fait l'objet de récents qui ont révélé l'utilisation abusive potentielle d'enregistrements enregistrements collectés pour améliorer l'intelligence artificielle agents comme Siri et Google Assistant. En avril, Bloomberg a révélé que Bloomberg a révélé qu'Amazon ad utilisé utiliség contratsou tde transcrire et d'annoter des audio enregistrements de l'entreprise. d'appareils équipés d'Alexa, ce qui a incité l'entreprise à mettre en place nouveaux outilsutilisateur qui vous permettent supprimer vos données stockées dans le nuage.

Pourquoi la ML exacerbe-t-elle la confidentialité des données ?

Dans une base de données, les différents points de données associés à un individu peuvent être distingués, du point de vue de la protection de la vie privée, par la classe d'informations qu'ils contiennent. Un jeu de données est composé de "points de données" (membres spécifiques d'une population) et de "caractéristiques" (les valeurs des attributs associés à chaque personne). Dans le cas des dossiers médicaux, par exemple, les caractéristiques peuvent être leur nom, l'âge, sexe, état, religionet maladie. La première colonne représente les informations personnelles identifiables (IPI), qui permettent d'identifier une personne de manière unique, eg: son nom complet ou son numéro de sécurité sociale. Le deuxième type de caractéristiques contenues est appelé Quasi-Identifiants (QI). Il s'agit de catégories telles que l'âge ou le sexe qui peuvent être attribuées à plus d'une personne. Par conséquent, ces informations ne sont pas suffisante pour l'identification. Toutefois, si elles sont combinées à d'autres IQ et des informations externes, il est parfois possible de "réidentifier" une personne.

Traditionnellement, la suppression de la colonne contenant des informations sensibles dans un jeu de données signifiait que ces informations spécifiques ne pouvaient pas être réintroduites à partir du jeu de données lui-même, mais seulement qu'en en combinant et en interrogeant des des informations externes. L'IA peut toutefois recréer des identités même si l'indicateur d'identité a été supprimé. À partir d'un jeu de données d'emploi candidats à l'emploi, par exemple, le sexe peut être supprimé afin de se protéger contre la discrimination fondée sur le sexe lors de l'examen des candidatures. candidat processus d'évaluation des candidats. Bien que les CV aient été dépersonnalisés dans ce sens, un outil de ML pourrait être en mesure de déceler des nuances subtiles dans l'utilisation de la langue et d'en déduire le sexe du candidat. Dans ce cas, la suppression de la colonne n'est pas suffisante pour éliminer les informations sensibles en toute sécurité.

Historiquement, les technologies d'IA n'ont pas été développées en tenant compte du respect de la vie privée. de la vie privée. Pour Pour atteindre des niveaux de précision fiables, les modèles ont besoin de grands ensembles de données pour "apprendre". Afin de protéger la vie privée des individus dans le contexte des données volumineuses, différentes techniques d'anonymisation ont été utilisées par convention. Les trois plus pertinentes sont le K-anonymat, L-la diversité et la T-dont nous examinerons brièvement la première. En K-l'anonymatle choix d'un Quasi-Identificateurs (eg: nom, religion) de certaines individus sont supprimées ou généralisées (ex: remplacement d'un âge spécifique par une tranche d'âge) de sorte que chaque combinaison de caractéristiques révélatrices de l'identité se retrouve dans au moins k rangées différentes du jeu de données. Le K-anonymat est une approche de la protection de la vie privée qui consiste à "se cacher dans la foule". de la protection de la vie privée. If chaque individu fait partie d'un groupe plus large, n'importe lequel des enregistrements peut correspondre à une seule personne. L-diversité et T-sont des extensions de ce concept, qui sont décrites plus en détail ici. Ces modifications seraient appliquées avant que les données ne soient partagées ou utilisées dans un modèle d'apprentissage . TC'est ce qu'on appelle la publication de données préservant la vie privée. Cependant, avec l'essor de l'IA, cette forme de protection est insuffisante.

La modélisation statistique conventionnelle modélisation ne pourraient prendre en compte qu'un nombre limité de variables. Mais aujourd'hui, grâce à des techniques de régularisation et la déclisationde la de l'informatique en nuage de l'informatique en nuage, it est devenu possible pour les modèles ML de de milliers de variables à partir desquelles de faire une seule prédiction. Avec des algorithmes capables de faire des déductions à partir d'ensembles de données aussi vastes et complexes, trois nouvelles questions conceptuelles se posent. Fout d'abordavec les dimensionnalité dimensionnalité des ensembles d'apprentissage en ML, il y a implicitement maintenant a plus plus grande probabilité que des informations sensibles soient incluses. Deuxièmementces nouveaux modèles puissants sont plus à même de discerner les informations sensibles (eg: reconstruire le genre à partir de différences subtiles dans les choix choix de mots). Enfin, troisièmementla garantie d'une confidentialité et d'un anonymat complets pour les vastes quantités de données incorporées dans des modèles ML complexes.s complexes. représente un défi majeur.

Introduction à l'apprentissage automatique préservant la vie privée

Pour répondre aux les défis susmentionnés, il existe un certain nombre de techniques prometteuses qui sont actuellement testées pour assurer une protection adéquate des personnes. données la confidentialité des données individuelles dans le cadre de la ML. Il s'agit notamment des techniques suivantes L'apprentissage fédéré, Confidentialité différentielleet le le chiffrement homomorphe. Pour l'essentiel, ces techniques en sont encore à des stades préliminaires d'exploration en ce qui concerne leur utilisation potentielle pour protéger la confidentialité des données des consommateurs. en ML à à l'échelleet sont entre les mains de chercheurs dans les universités ou dans les grandes entreprises.st technologie. Quels sont less'est devient le standard et comment ils seront bs'ene de l'écart pour répondre aux besoins des ML dans la production reste reste à reste à voir.

Apprentissage fédéré

L'apprentissageated Learning est un exemple est un exemple de l'approche plus générale consistant à "amener le code aux données, plutôt que les données au code", et et, par conséquent aborde certains de problèmes de la vie privée, de la propriété et de la physique physiquetion des données. L'apprentissage fédéré est une approche collaborative qui qui implique l'apprentissage modèles de ML sur un grand ensemble de données décentralisées présentes sur plusieurs appareils clients. Le modèle est formé sur les appareils clients et il n'est donc pas nécessaire de transfert les données de l'utilisateur. En conservant l'utilisateur. données personnelles sur l'appareil du client permet de conserver le contrôle direct et physique de leurs propres données. Le fait de conserver les échantillons de données sur les appareils des clients, sans qu'il soit nécessaire d'échanger ces échantillons, permet à plusieurs parties de développer un ML commun sans avoir à sans avoir à partagerde partager toutes les données entre eux qui créers la vulnérabilité accrue qui découle de la mise en commun de toutes les données ensemble en un seul endroit.

Google, pionnier de l'apprentissage fédéré, a utilisé FL pour la personnalisation de son Gboard sur des dizaines de millions d'appareils iOS et Android. Et tnsemble avec le lancement deavec le lancement du Pixel 4, Google a présenté une version améliorée de son Pixel 4, Google a présenté une version améliorée de son système de reconnaissance musicale Now Playing. de son système de reconnaissance musicale Now Playing.tion fonction qui agrège les comptes de lecture des chansons de manière fédérée, en identifiant les chansons les plus populaires dans une zone donnée. les plus populaires dans géographique donnée.

Parmi les inconvénients de l'approche de l'apprentissage fédéré, on peut citer le fait que qu'elle nécessites beaucoup de puissance de traitement et de mémoire de la part des appareils fédérés.. En outre, comme les modèles ne peuvent être formés que lorsque les appareils sont connectés et capables de transférer des données, cela peut introduire un biais situationnel dans les données qui entrent dans le modèle. aux données qui entrent dans le modèle. Par exemple, un peut écouter différentes sources de musique (etd donc des chansons différentes) lorsqu'il est en WiFi par rapport aux données cellulaires. Enfin, l'apprentissage fédéré est vulnérable aux risques suivants "attaques par empoisonnement"où un réseau accusatoire génératif (ou GAN) peut se faire passer pour un participant bienveillant afin de prendre le contrôle du modèle..

Protection différentielle de la vie privée

Différentiel Prité is a prometteuseprometteuse, voire nouvelle, prometteuse de la préservation de la vie privée dans les ML. Développé par Cynthia Dwork et al chez Microsoft en 2006, le DP tente de garantir qu'aucun individu ne peut être lié à tdonnées utilisées pour entraîner un modèle ML. Cela ne Cela ne signifie pas que vous ne pouvez rien découvrir sur un individu. sur un individu in un jeu de données. Par exemple, publier des données qui montrents une forte corrélation entre le tabagisme et le cancer du poumon révélerait révéler des informations sensibles sur une personne dont on sait qu'elle fume. L'objectif ultime en matière de protection de la vie privée est plutôt de garantir que tout ce qui peut être appris sur une personne à partir des informations diffusées peut l'être sans que les données de cette personne ne soient incluses. En termes généraux, un algorithme est "différentiellement privé" si un observateur examinant le résultat n'est pas en mesure de déterminer si les informations d'une personne spécifique ont été utilisées dans le calcul.

Le DP protège la vie privée des individus en ajoutant un bruit aléatoire au jeu de données selon une méthode soigneusement déterminée. déterminée soigneusement déterminée, ce qui conduira à la "perturbation" de la vraie réponse. La vraie réponse plus le bruit est toujours renvoyée comme sortie à l'utilisateur. Le degré de perturbation peut être pris en compte de sorte que la précision globale ne diminue pas de manière significative, tandis que pour les données individuelles, il reste toujours un degré de "dénégation plausible" due au caractère aléatoire du bruit.

A aspect aspect est qu'il est le plus souvent compatible avec, voire bénéfique pour, une analyse significative des données, malgré sa force protectrice. Dans les sciences empiriques, il y a souvent la menace de "surajustement" données pour permettre conclusions spécifiques au jeu de données, et perdent de leur précision lorsque les prédictions sont généralisées à l'ensemble de la population. Parce que DP offre également une protection contre ce type d'ajustement excessif, ses avantages vont donc au-delà de la sécurité des données.

Apple utilise une forme ou une autre de DP depuis 2017 pour identifier les emojis populaires, les préférences de lecture des médias dans Safari, etc.. TLa société a combiné le DP avec Federated Learning dans la dernière version de son système d'exploitation mobile (iOS 13). Ces deux techniques permettent d'améliorer les résultats fournis par Siri, ainsi que par des applications telles que Apple QuickType d'Apple et le clavier Found dans d'iOS. Cette dernière analyse les applications de calendrier et de messagerie à la recherche des noms des contacts et des appelants dont les numéros ne sont pas stockés localement.

Chiffrement homomorphe

Homomorphique Le chiffrement, comme le DP, n'est pas nouveau, mais il connaît un regain d'intérêt en raison de son utilité potentielle pour la préservation de la vie privée dans le cadre de l'apprentissage automatique. la protection de la vie privée dans le cadre de l'apprentissage automatique. L'idée essentielle est que nous pouvons utiliser données sous forme cryptée pour entraîner et exécuter le mode MLl. D'après Wikipédia: "Le chiffrement homomorphe est une forme de chiffrement qui permet d'effectuer des calculs sur le texte chiffré, générant ainsi un résultat chiffré qui, lorsqu'il est déchiffré, correspond au résultat des opérations effectuées sur le texte en clair." Par exemple, cela signifie que vous pouvez utiliser "Qhjr Thykhjr" (en utilisant le cryptogramme Ceasar) dans unn ML modèle d'apprentissage à la place de mon nom (Jack Mardack)et retourner un résultat crypté de la même manière. Vous pouvez également crypter le modèle ML modèle lui-mêmequi est précieux dans dans le cas de l'apprentissage fédéré, lorsqu'il est nécessaire de transférer le modèle aux données (eg: à l'appareil du client). l'appareil du client). Cela signifie que vous pouvez protéger le modèle lui-même ainsi que les données relatives à l'apprentissage .

Il peut sembler évident d'utiliser le chiffrement pour protéger les données, mais l'utilité de cette approche est considérablement réduite en raison des implications en termes de performances. Les bibliothèques de chiffrement homomorphique ne tirent pas parti de l'accélération matérielle modernece qui rend les modèles ML ~10X plus lents que les autres approches. Mais des équipes de recherche d'Intel, de Facebook et d'IBM (entre autres) travaillent à combler ce fossé.

Le chiffrement homomorphe suscite naturellement beaucoup d'intérêt dans les cas d'utilisation du ML de les plus hautement réglementées hautement réglementéescomme les soins de santé et les banquesoù la possibilité d'un chiffrement de bout en bout est hautement souhaitable.

Conclusion

Nous nous trouvons à un carrefour intéressantde la de la. Il y a un accord quasi universel sur le fait que le ML et l'IA sont sur le point de transformer radicalement radicalement l'expérience humaine sur de multiples changer la vie dimensions qui changent la vie, de la façon dont nous restons santéy, la façon dont nous travaillons et créons, la facilitation d'activités humaines banales, etc.à la facilitation d'une myriade d'activités humaines banales.

Mais il semble que les deux côtés de l'échelle risque/récompense soient en train de changer pour les consommateurs. Jusqu'à présent, les avantages liés au partage de nos données avec des entreprises commerciales étaient relativement modestes. des fils d'actualité plus personnalisés dans nos applications sociales, ou des recommandations plus pertinentes de la part de l'entreprise. les sites de commerce électronique que nous achetons. Très soon, Cependant, la valeur que nous pouvons tirer de la ML et de l'IA sera beaucoup plus importante.. Il n'est pas exagéré de dire que ces technologies feront la différence entre la vie et la mort pour beaucoup d'entre nous. Mais, la nature des données que nous devrons partager afin d'en tirer profit est également beaucoup plus sensibleLa nature des données que nous devrons partager pour en tirer parti est également beaucoup plus sensible, ce qui crée une exposition sans précédent pour les consommateurs.. L'interaction entre les deux côtés de cette équation va déterminer à la fois notre adoption (la volonté avec laquelle nous allons utiliser les technologies de l'information et de la communication) et l'utilisation des technologies de l'information et de la communication. avec laquelle nous partagerons nos données les plus personnelles), ainsi que l'évolution de la protection de la vie privée. l'évolution de la protection de la vie privée.on de protection de la vie privée, telles que celles décrites ci-dessus.

À cet égard, le ML préservant la vie privée n'en est qu'à ses balbutiements. Les travaux jusqu'à à ce jour sur ces fronts ont été réalisés presque entièrement par des chercheurs sur la base de leurs propres spéculations sur la nature des attaques ou des violations probables. sur la nature des attaques ou des violations probables. Contrairement, par exemple, à l'état de protection dont nous bénéficions aujourd'hui contre les virus informatiques (qui s'appuie sur des décennies d'attaques réelles), nous n'avons aucune idée de ce que les "méchants" vont faire. réellement faire. Nous devrons attendre et voir, puis apprendre, améliorer et rattraper notre retard.

Pour en savoir plus : Un grand laboratoire pharmaceutique a désormais accès aux données génétiques de 23andMe. Faut-il s'inquiéter ?

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous couvrons des sujets allant de l'ingestion de données en temps réel à l'analyse pilotée par l'IA.