Leitfaden für Laien zu Maschinelles Lernen und Kundendatenschutz
Es kommt mir vor, als wäre es erst gestern gewesen , dass Maschinelles Lernenund „künstliche Intelligenz“ von die meisten Leute Leute außerhalb der Tech-Branche. Als kinobegeisterte Kultur haben wir eine lange Geschichte Zusammenarbeitmit diese Konzepte mit selbstbewussten Robotern oder bösartigen Computerprogrammen in Verbindung zu bringen, die könntenwürden aus den Labors entkommen könnten, in denen sie geschaffen wurden, und die Menschheit bedrohen könnten. Doch im Jahr 2020 haben sich ML und KI erheblich entmystifiziert. Und doch, auch wenn es heute weniger wahrscheinlich erscheint, dass die Singularität durch die Leichtsinngeringeren Ambitionen irgendeines Tech-Start-ups, Verbraucher haben neue Gründe zur Sorge.
Ja, ML und KI sind auf dem Weg zum Mainstream, und es sind nicht nur disruptionsorientierte Start-ups , die diese Technologien nutzen.Unternehmen aus den unterschiedlichsten etablierten Branchen finden stichhaltige geschäftliche Gründe, diese fortschrittlichen Projekte und sie aus dem Labor in die Produktion, mit vielen spannenden Auswirkungen für ihre Kunden.
Zurdie Implikation, die Gegenstand dieses Artikels ist, ist die Schaffung einer neuen Kategorie des Datenschutzes Verwundbarkeit.. Und eine Mehrheit der buUnternehmen , die ML nutzen wollen , lernen müssen, ihreihrer Kundenvor vor diesen neuen Sicherheitslücken.
DiediesesBedenkenentstehen entstehen zunächst , weiler „Modelle“, die ML funktionieren lassen müssen mit Daten trainiert werden – und zwar mit vielen. Da Unternehmen versuchen, aus diesen neuen ML-Programme (wie Chatbots, Echtzeite Risiko- und Betrugsanalyse sowie prädiktive Gesundheitsversorgung), sie werden trainieren Modelle mit Kundendaten irgendeiner Art trainieren . In vielen Fällen handelt es sich dabei um äußerst sensible Kundendaten.
Da wir zweifellos eine neue Ära im Bewusstsein der Verbraucher für Datenschutzrechte einläuten, verbunden mit dem Inkrafttreten neuer Vorschriften wie der DSGVO und CCPA, ist es an der Zeit, darüber nachzudenken, wie maschinelles Lernen und der Datenschutz für Verbraucher nebeneinander bestehen können.
Kein hypothetisches Problem mehr
Leider ist bereits etwas Zahnpasta aus der Tube ausgelaufen. Eine Reihe von jüngste Kontroversen zeigen das potenzielle Ausmaß des Problems mit maschinellem Lernen und dem Datenschutz auf. Google (dessen Vereinbarung zum Austausch von Gesundheitsdaten mit mit Ascension im November in den Fokus der Öffentlichkeit gerückt war) hat seine Pläne zur Veröffentlichung von Röntgenaufnahmen der Brust, da Bedenken bestanden, dass diese personenbezogene Daten enthielten. Der Royal Free London NHS Foundation Trust, eine Abteilung des britischen National Health Service mit Sitz in London, stellte Alphabets DeepMind Daten von 1,6 Millionen Patienten ohne deren Einwilligung zur Verfügung. Im vergangenen Sommer hat Microsoft stillschweigend einen einen Datensatz (MS Celeb) mit Bildern von mehr als 10 Millionen Menschen, nachdem bekannt wurde, dass einige davon wussten , dass sie darin enthalten waren.
Und es stellt sich heraus,es diejenigen von uns, die’haben waren bekommenein ein unheimliches Gefühl, wennwir wirunsere unsere tiefsten Wünsche einer KI-basierte Wunscherfüllungs-Engine, hatten guten Grund dazu. Apple und Google waren Gegenstand jüngsten Berichten, die den potenziellen Missbrauch von Aufzeichnungen , die zur Verbesserung künstlicher aAssistenten wie Siri und Google Assistant. Im April enthüllte Bloomberg , dass Amazon hahatte war verwendetg VertragAuftragnehmer to transkribieren und kommentieren Audio Aufnahmen von von Alexa-gestützten Geräten, was das Unternehmen dazu veranlasste, neue Nutzer Tools einzuführen, die es Ihnen ermöglichen löschen Ihre Cloud Daten löschen können.
Warum maschinelles Lernen den Datenschutz beeinträchtigt
Innerhalb einer Datenbank lassen sich die verschiedenen Datenpunkte, die mit einer Person verbunden sind, unterscheiden, aus Sicht des Datenschutzes danach unterschieden werden, welche Art von Informationen sie enthalten. Ein Datensatz aus „Datenpunkten“ (bestimmte Mitglieder einer Population) und „Merkmale“ (die Werte der Attribute, die mit jeder Person). Im Falle von Krankenakten könnten könnten Merkmale sein ihr Name, Alter, Geschlecht, Bundesland, Religionund Krankheit. Die erste Spalte steht für personenbezogene Daten (PII), die eine Person eindeutig identifizieren, z. B.: ihren vollständigen Namen oder ihre Sozialversicherungsnummer. Die zweite Art von Merkmalen werden als Quasi-Identifikatoren (QI) bezeichnet; dabei handelt es sich um Kategorien wie Alter oder Geschlecht, die mehr als einer Person zugeordnet werden können. Daher reichen diese Informationen allein nicht ausreichend für eine Identifizierung. In Kombination mit anderen QIs und externen Informationen ist es manchmal möglich, „wieder“ eine Person
Bisher Datensatz das Entfernen der Spalte mit sensiblen Informationen aus einem Datensatz , dass diese spezifischen Informationen nicht mehr aus dem Datensatz abgeleitet werden konnten, sondern nur durch Kombination und Abfrage . KI kann jedoch Identitäten auch dann wiederherstellen, wenn der Identitätsindikator entfernt wurde. Aus einer Reihe von Bewerbungsunterlagen Bewerbungsunterlagenkann könnte beispielsweise könnte das Geschlecht entfernt werden, um während des Bewertungsprozesses . Obwohl die Lebensläufe in diesem Sinne anonymisiert wurden, könnte ein ML-Tool möglicherweise subtile Nuancen im Sprachgebrauch erkennen und daraus das Geschlecht des Bewerbers ableiten. Hier reicht das Entfernen der Spalte nicht aus, um sensible Informationen sicher zu entfernen.
KI-Technologien wurden in der Vergangenheit nicht unter Berücksichtigung des Datenschutzes entwickelt . Um Um eine zuverlässige Genauigkeit zu erreichen, benötigen Modelle große Datensätze, aus denen sie „lernen“ können. Um die Privatsphäre des Einzelnen im Kontext von Big Data zu schützen, wurden bisher verschiedene Anonymisierungstechniken eingesetzt. Die drei relevantesten sind K-Anonymität, L-Diversität und T-Nähe, von denen wir die erste kurz näher betrachten werden. In K-Anonymitätwerden ausgewählte QQuasi-IIdentifikatoren (z. B.: Name, Religion) bestimmter Personen werden entfernt oder verallgemeinert (z. B.: Ersetzen eines bestimmten Alters durch eine Altersspanne), sodass jede Kombination identitätspreisender Merkmale in mindestens k verschiedenen Zeilen des Datensatz vorkommt. K-Anonymität ist ein „Verstecken in der Menge“ zum Schutz der Privatsphäre. Ichf jede einzelne Person Teil einer größeren Gruppe ist, könnte jeder der Datensätze einer einzelnen Person entsprechen. L-Diversität und T-Nähe sind Erweiterungen dieses Konzepts, die hier. Diese Modifikationen würden vor der Weitergabe der Daten angewendet oder in einem Training verwendet werden.Dies wird als datenschutzkonforme Datenveröffentlichung bezeichnet. Mit dem Aufkommen der KI reicht diese Form des Schutzes jedoch nicht mehr ausreichend.
Herkömmliche statistische Modellierungsmethoden könnten nur eine begrenzte Anzahl von Variablen berücksichtigen. Doch heute, da dank Regulierungsverfahren und der Entdesinkende sCloudenden Rechenleistung, it ist für ML-Modellen , Tausende von Variablen zu berücksichtigen, aus denen um eine einzige Vorhersage zu treffen. Mit Algorithmen, die aus solch großen und komplexen Datensätzen Rückschlüsse ziehen können, ergeben sich drei neue konzeptionelle Probleme. Zerstens, mit der erweiterten Dimensionen in Training gibt es implizit jetzt eine größere Wahrscheinlichkeit, dass sensible Informationen enthalten sind. Zweitens: Diese leistungsstarken neuen Modelle sind eher in der Lage, diese sensiblen Informationen zu erkennen (z. B.: die Rekonstruktion des Geschlechts anhand subtiler Unterschiede in Wort ). Und drittens: die Gewährleistung umfassender Datenschutz- und Anonymitätsmaßnahmen für die riesigen Datenmengen, die in komplexe ML-Modelle einfließen. stellt stellt eine große Herausforderung dar.
Einführung in datenschutzkonformes Maschinelles Lernen
Um den oben genannten Herausforderungen gibt es eine Reihe vielversprechender Techniken, die derzeit getestet werden, um einen angemessenen Schutz für des Datenschutz im ML zu gewährleisten. Dazu gehören Federated Learning, Differential Privacyund homomorphe Verschlüsselung. Zum größten Teil befinden sich diese alle noch in einem frühen Forschungsstadium, was ihre potenzielle Nutzung zum Schutz der Privatsphäre von Verbraucherdaten im Bereich des maschinellen Lernens im großem Maßstabund befinden sich in den Händen von Forschern an Hochschulen oder bei den großenst Technologieunternehmen. Welchewelcher wird zum Standard und wie sieRidgedie die Lücke schließen, um den Anforderungen von ML in der Produktion gerecht zu werden, bleibt noch .
Föderiertes Lernen
FederLernen ist ein Beispiel für den allgemeineren Ansatz, „den Code zu den Daten zu bringen, anstatt die Daten zum Code“, und damit behandelt einige der grundlegenden Probleme in Bezug auf Datenschutz, Eigentumsrechte und physischer Lokalisierungdes von Daten. Federated Learning ist ein kooperativer Ansatz, der Training ML-Modelle auf einem großen Datensatz von dezentralen Daten, die auf mehreren Client-Geräten vorhanden sind. Das Modell wird auf den Client-Geräten trainiert, sodass keine Übertragung . NutzerAufbewahrung der persönlichen Daten auf dem Client-Gerät ermöglicht es ihm, die direkte und physische Kontrolle über seine eigenen Daten. Die Speicherung der Datenproben auf den Client-Geräten, ohne dass diese ausgetauscht werden müssen, ermöglicht es mehreren Parteien, ein gemeinsames Modell zu entwickelnL Modell zu entwickeln, ohne diese allealle Daten untereinander , was erzeugts die erhöhte Anfälligkeit, die entsteht, wenn man alle Daten an an einem einzigen Ort.
Google, ein Pionier im Bereich des föderierten Lernens, hat FL für die Personalisierung in seiner Gboard vorausschauenden Tastatur auf Millionen von iOS- und Android-Geräten eingesetzt. Undzusammenmit der Einführung des Pixel 4 stellte Google eine verbesserte Version seiner „Now Playing“-MusikerkennungsfunktionFunktion , , die die Wiedergabezahlen von Songs auf föderierte Weise zusammenfasst und so die beliebtesten Songs in einem bestimmten geografischen Gebiet.
Zu den Nachteilen des Federated-Learning-Ansatzes gehört die Tatsache, dass er erfordertviel viel Rechenleistung und Speicherplatz von den verbundenen Geräten. Da die Modelle zudem nur trainiert werden können, wenn die Geräte verbunden sind und Daten übertragen können, kann dies zu einer situativen Verzerrung in den Daten, die in das Modell einfließen. Beispielsweise kann ein Nutzer verschiedene Musikquellen hören (eined daher unterschiedliche Lieder hören), wenn er WLAN im Gegensatz zu Mobilfunkdaten. Und schließlich ist Federated Learning anfällig für „Poisoning-Angriffen“, bei denen ein generatives gegnerisches Netzwerk (oder GAN) sich als harmloser Teilnehmer ausgeben kann, um die Kontrolle über das Modell zu erlangen.
Differenzielle Privatsphäre
DDifferential PDatenschutz is a vielversprechend, wenn auch nicht neu, Ansatz zur zum Schutz der Privatsphäre im maschinellen Lernen. Entwickelt von Cynthia Dwork et al bei Microsoft im Jahr 2006, DP soll sicherstellen, dass keine Person mit ddie Daten , die zum trainieren ML-Modells verwendet werden. Das bedeutet nicht, dass man nichts über eine Person iin einen Datensatz. Zum Beispiel Daten zu veröffentlichen , die zeigeneine eine starke Korrelation zwischen Rauchen und Lungenkrebs würden sensible Informationen über eine Person preisgeben, von der bekannt ist, dass sie raucht. Vielmehr besteht das oberste Ziel des Datenschutzes darin, sicherzustellen, dass alles, was aus den veröffentlichten Informationen über eine Person erfahren werden kann, auch ohne die Einbeziehung der Daten dieser Person erfahren werden kann. Allgemein ausgedrückt ist ein Algorithmus „differenziell privat“ , wenn ein Beobachter, der die Ausgabe untersucht, nicht feststellen kann, ob Informationen einer bestimmten Person bei der Berechnung verwendet wurden.
DP dient dem Schutz der Privatsphäre, indem dem Datensatz sorgfältig Verteilung Verteilung zufälliges Rauschen hinzufügt, was dazu führt, dass die „Störung“ der wahren Antwort. Die wahre Antwort plus Rauschen ergibt immer als als Ausgabe an den Nutzer zurückgegeben. Der Grad der Störung kann so berücksichtigt werden, dass die Gesamtgenauigkeit nicht wesentlich abnimmt, während bei einzelnen Daten immer ein gewisses Maß an „plausibler Abstreitbarkeit“ aufgrund der Zufälligkeit des Rauschens.
Ein wünschenswert Aspekt von DP ist, dass es trotz seiner Schutzwirkung größtenteils mit einer aussagekräftigen Datenanalyse vereinbar oder sogar förderlich für diese ist. In der empirischen Wissenschaft gibt es oft die Gefahr „Überanpassung“ Daten an zu Schlussfolgerungen zu ermöglichen, die spezifisch für den Datensatz sind, und an Genauigkeit zu verlieren, wenn Vorhersagen auf die größere Population verallgemeinert werden. Weil DP ebenfalls Schutz vor einer solchen Überanpassung bietet, gehen seine Vorteile somit sogar über die Datensicherheit hinaus.
Apple nutzt bereits seit einiger Zeit eine Form von DP , um beliebte Emojis, Einstellungen zur Medienwiedergabe in Safari und vieles mehr zu ermitteln.Das Unternehmen kombinierte DP mit Federated Leinführt in der neuesten Version seines mobilen Betriebssystems (iOS 13). Beide Techniken tragen dazu bei, die Ergebnisse von Siri sowie von Apps wie Apples QuickType Tastatur und die Suchfunktion In Apps“. Letztere durchsucht sowohl Kalender- als auch E-Mail-Apps nach den Namen von Kontakten und Anrufern, deren Nummern nicht lokal gespeichert sind.
Homomorphe Verschlüsselung
Homomorphe Verschlüsselung ist, ebenso wie DP, nichts Neues, erfreut sich jedoch aufgrund ihres potenziellen Nutzens für den Datenschutz im Bereich des Maschinelles Lernen. Der Kerngedanke ist, dass wir Daten in verschlüsselter Form nutzen können, um das ML-Modell trainieren auszuführen. Aus Wikipedia: „Homomorphe Verschlüsselung ist eine Form der Verschlüsselung, die es ermöglicht, Berechnungen auf Chiffretext durchzuführen und so ein verschlüsseltes Ergebnis zu erzeugen, das nach der Entschlüsselung mit dem Ergebnis der auf dem Klartext durchgeführten Operationen übereinstimmt.“ Das bedeutet zum Beispiel, dass man „Qhjr Thykhjr“ (unter Verwendung der Caesar-Chiffre) in einern ML Training anstelle von meinem Name (Jack Mardack)und eine ähnlich verschlüsselte Ausgabe zurückgeben. Sie können auch das ML Modell selbst, was von großem Nutzen ist im im Fall von Federated Learning, wo es notwendig ist, das Modell zu den Daten zu übertragen (z. B.: auf Gerät des Kunden). Das bedeutet, dass Sie das Modell selbst sowie die Training
Es mag naheliegend erscheinen, Daten durch Verschlüsselung zu schützen, doch wird der Nutzen dieses Ansatzes durch die Auswirkungen auf die Leistung erheblich eingeschränkt. Bibliotheken für homomorphe Verschlüsselung nutzen die Vorteile moderner Hardwarebeschleunigung nicht, wodurch die ML-Modelle etwa zehnmal langsamer als andere Ansätze. Es gibt jedoch Forschungsteams bei Intel, Facebook und IBM (unter anderem), die daran arbeiten, diese Lücke zu schließen.
Das Interesse an homomorpher Verschlüsselung ist natürlich groß in Anwendungsfällen des maschinellen Lernens , je den stärker stärker regulierten Branchen, wie dem Gesundheitswesen und dem Bankwesen, in denen die Möglichkeit einer End-to-End-Verschlüsselung sehr wünschenswert ist.
Schlussfolgerung
Wir stehen an einem interessanten Scheideweg, um .. Es herrscht nahezu Einigkeit darüber, dass ML und KI daran sind, die menschliche Erfahrung in vielerlei lebensverändernden Dimensionen, von wie wir gesund, bis hin zu unserer Arbeitsweise und Kreativität, bis hin zur Erleichterung unzähliger alltäglicher menschlicher Aktivitäten.
Es scheint jedoch, dass sich für die Verbraucher sowohl die Risiken als auch die Vorteile verändern. Bislang waren die Vorteile der Weitergabe unserer Daten an kommerzielle Unternehmen vergleichsweise gering – sie beschränkten sich auf personalisiertere Newsfeeds in unseren Social-Media-Apps oder relevantere Empfehlungen von den E-Commerce-Websites , bei denen wir einkaufen. Sehr baldbald wird der Nutzen, den wir aus ML und KI ziehen können, jedoch viel, viel größer sein. Es ist keine Übertreibung zu sagen, dass diese Technologien für viele von uns den Unterschied zwischen Leben und Tod ausmachen werden. Aber, die Art der Daten, die wir teilen müssen , um davon zu profitieren, ist zudem viel sensibler, was für die Verbraucher eine beispiellose Gefährdung mit sich bringt. Das Zusammenspiel beider Seiten dieser Gleichung wird sowohl unsere Akzeptanz (die Bereitschaft, , wir unsere persönlichsten Daten) als auch die die weitere Entwicklung des DatenschutzesMethoden Methoden, wie die oben beschriebenen.
In dieser Hinsicht steckt das datenschutzkonforme maschinelle Lernen noch in den Kinderschuhen. Die Arbeit zu bisher in diesen Bereichen wurden fast ausschließlich von Forschern durchgeführt, die sich auf ihre eigenen Spekulationen über die Art wahrscheinlicher Angriffe oder Sicherheitsverletzungen. Im Gegensatz beispielsweise zu dem Schutz, den wir heute vor Computerviren genießen (der auf jahrzehntelangen Erfahrungen mit realen Angriffen beruht), haben wir keine Ahnung, was die „Bösen“ tatsächlich tun. Wir müssen abwarten und sehen, und dann lernen, uns verbessern und aufholen.
Weiterführende Lektüre: Ein großes Pharmaunternehmen hat nun Zugriff auf die genetischen Daten von 23andMe. Sollten Sie sich Sorgen machen?