Leitfaden für Laien zu Maschinelles Lernen und Kundendatenschutz
Actian Germany GmbH
Januar 16, 2020

Es fühlt sich an, als wäre es erst gestern gewesen dass "Maschinelles Lernen" und "Künstliche Intelligenz" von den meisten Menschen mit Science Fiction gleichgesetzt wurden die meisten normalen Leute außerhalb der Technik. Als Kinobesuch Kultur, haben wir a lange Geschichte der assoziierening diese Konzepte mit selbstbewussten Robotern oder abtrünnigen Computerprogrammen, die cdie den Labors, in denen sie entwickelt wurden, entkommen und alle Menschheit bedrohen. Doch im Jahr 2020 sind ML und KI erheblich entmystifiziert. Und auch wenn es jetzt weniger wahrscheinlich erscheint, dass die Singularität ausgelöst wird durch die reckweniger Ehrgeiz von einige Tech-Startups, Verbraucher haben neue Gründe zur Besorgnis.
Ja, ML und KI werden zum Mainstreamund es sind nicht nur störungswillige Startups die diese die sich diese Technologien zunutze machen. Enternehmen aus einer breiten Palette von etablierten Industrien finden solide geschäftliche Gründe für die Finanzierung dieser fortschrittlichen Projekte und bringen sie aus dem Labor in die Produktion, mit vielen spannenden Auswirkungen für ihre Kunden.
Aufe Folgerung, um die es in diesem Artikel geht, ist die Schaffung einer neuen Klasse personenbezogener Daten, die schutzbedürftigkeities. Und eine Mehrheit von businesses die ML nutzen wollen werden lernen müssen, ihre Daten zu schützen dieihre Kundens vor diesen neuen Schwachstellen.
Die Websitese concerns entstehen in erster Linie weil diedie "Modelle", die ML funktionieren lassen müssen mit Daten trainiert werden - und zwar mit sehr vielen Daten. Da Unternehmen versuchen, einen geschäftlichen Nutzen aus diesen neuen ML-Programme (wie z.B. konversationelle Agenten, Echtzeite Risiko- und Betrugsanalyse und vorausschauende Gesundheitsversorgung), werden sie ihre Modelle mit einer Art von Kundendaten trainieren . In vielen Fällen handelt es sich um sehr private Kundendaten.
Mit dem Beginn einer neuen Ära des Bewusstseins der Verbraucher für ihre Datenschutzrechte und der Einführung neuer Vorschriften wie GDPR und CCPAist es an der Zeit, darüber nachzudenken, wie ML und Verbraucherdatenschutz nebeneinander existieren werden.
Nicht länger ein hypothetisches Problem
Leider ist ein Teil der Zahnpasta bereits aus der Tube entwichen. Eine Reihe von jüngsten Kontroversen zeigen das potenzielle Ausmaß des Problems ML + Kundendatenschutz. Google (dessen Vereinbarung zur Weitergabe von Gesundheitsdaten Vereinbarung mit Ascension im November in den Fokus der Öffentlichkeit geriet) hat aufgegeben seine Pläne zur Veröffentlichung von Röntgenbildern der Brust auf, weil es Bedenken hatte, dass sie personenbezogene Daten enthalten. Der Royal Free London NHS Foundation Trust, eine Abteilung des britischen Nationalen Gesundheitsdienstes mit Sitz in London, stellte zur Verfügung. DeepMind von Alphabet die Daten von 1,6 Millionen Patienten ohne deren Zustimmung. Im vergangenen Sommer hat Microsoft im Stillen entfernt. einen Datensatz (MS Celeb) mit Bildern von mehr als 10 Millionen Menschen, nachdem sich herausgestellt hatte, dass einige von ihnen nicht bewusst dass sie einbezogen worden waren.
Und es stellt sich heraust diejenigen von uns, die'haben waren erhaltenting ein unheimliches Gefühl, wennimmer wir ausdrückened unsere tiefsten Wünsche gegenüber eine KI-basierte Wunscherfüllungsmaschineund hatten gute Grund dazu. Apple und Google waren Gegenstand von jüngsten Berichte, die den möglichen Missbrauch von Aufnahmen die zur Verbesserung der künstlichen agenten wie Siri und Google Assistant zu verbessern. Im April, Bloomberg enthüllt dass Amazon had . unterg Vertragoders tfür die Transkription und Kommentierung Audio Aufzeichnungen zog von Alexa-betriebenen Geräten zu transkribieren und zu kommentieren, was das Unternehmen dazu veranlasst, neue neue Nutzer Tools, die können Sie löschen können. Ihre Cloud Daten.
Warum ML den Datenschutz verschärft
Innerhalb einer Datenbank können die verschiedenen Datenpunkte, die mit einer Person verbunden sind, unterschieden werden, unter dem Gesichtspunkt des Schutzes der Privatsphäre danach unterscheiden, welche Klasse von Informationen sie enthalten. Ein Datensatz setzt sich zusammen aus "Datenpunkten" (bestimmte Mitglieder einer Population) und "Merkmale" (die Werte der Attribute, die mit jeder Person). Im Falle von Krankenakten, zum Beispiel, könnten Merkmale sein ihre Name, Alter, Geschlecht, Staat, Religionund Krankheit. Die erste Spalte enthält personenbezogene Daten (PII), die eine Person eindeutig identifizieren, z.B.: Ihr vollständiger Name oder ihre Sozialversicherungsnummer. Die zweite Art der enthaltenen Merkmale wird als Quasi-Indentifikatoren (QI) bezeichnet, bei denen es sich um Kategorien wie Alter oder Geschlecht handelt, die mehr als einer Person zugeordnet werden können. Daher sind diese Informationen für sich allein nicht ausreichend für die Identifizierung. Kombiniert man sie jedoch mit anderen QI und externen Informationen, ist es manchmal möglich "Re-Identifizierung" einer Person.
Traditionell bedeutete das Entfernen einer Spalte mit sensiblen Informationen in einem Datensatz , dass diese spezifischen Informationen nicht aus dem Datensatz selbst wiederhergestellt werden konnten, sondern nur durch Kombination und Abfrage externer Informationen. Die künstliche Intelligenz ist jedoch in der Lage, Identitäten auch dann wiederherzustellen, wenn der Identitätsindikator entfernt wurde. Aus einem Satz von Stellenangeboten Lebensläufen von Bewerbern, zum Beispiel, Geschlecht entfernt werden, um sich vor geschlechtsspezifischer Diskriminierung während der Bewerber Bewertungsprozess zu schützen. Obwohl die Lebensläufe in diesem Sinne de-identifiziert wurden, könnte ein ML-Tool in der Lage sein, subtile Nuancen im Sprachgebrauch zu erkennen und daraus auf das Geschlecht des Bewerbers zu schließen. In diesem Fall reicht es nicht aus, die Spalte zu entfernen, um sensible Informationen sicher herauszufiltern.
Bei der Entwicklung von KI-Technologien wurde in der Vergangenheit der Datenschutz berücksichtigt. Um Genauigkeit zu erreichen, benötigen die Modelle große Datensätze, aus denen sie "lernen" können. Um die Privatsphäre des Einzelnen im Kontext von big data zu schützen, werden üblicherweise verschiedene Anonymisierungstechniken verwendet. Die drei wichtigsten sind K-Anonymität, L-Vielfalt und T-Schließlichkeit, von denen wir die erste kurz untersuchen werden. Unter K-Anonymitätausgewählte Quasi-Identifikatoren (z.B.: Name, Religion) von bestimmten Personen werden entfernt oder verallgemeinert (z.B.: Ersetzen eines bestimmten Alters durch eine Altersspanne), so dass jede Kombination von identitätsaufdeckenden Merkmalen in mindestens k verschiedenen Zeilen des Datensatz vorkommt. K-Anonymität ist ein "Verstecken in der Menge" Ansatz zum Schutz der Privatsphäre. If jedes Individuum Teil einer größeren Gruppe ist, könnte jeder der Datensätze einer einzigen Person entsprechen. L-Diversität und T-Abgeschlossenheit sind Erweiterungen dieses Konzepts, die hier ausführlicher beschrieben werden hier. Diese Modifikationen würden angewendet werden, bevor die Daten gemeinsam oder in einem training verwendet werden. Ties wird als Veröffentlichung von Daten unter Wahrung der Privatsphäre bezeichnet. Mit dem Aufkommen der KI ist diese Form des Schutzes jedoch unzureichend.
Konventionelle statistische Modellierung können nur eine begrenzte Anzahl von Variablen berücksichtigen. Aber heute, aufgrund von Regularisierungstechniken und der dezlining Kosten für CloudBerechnungen, it ist möglich geworden für ML-Modelle zu Tausende von Variablen zu berücksichtigen von denen zu eine einzige Vorhersage zu treffen. Bei Algorithmen, die aus so großen und komplexen Datensätzen Rückschlüsse ziehen können, stellen sich drei neue konzeptionelle Fragen. FErstensmit der erweiterten Dimensionalität der training gibt es implizit jetzt a größere Wahrscheinlichkeit, dass sensible Informationen enthalten sind. Zweitenssind diese leistungsfähigen neuen Modelle eher in der Lage zu erkennen, dass sensible Informationen (z.B.: Rekonstruktion des Geschlechts aus subtilen Unterschieden in Wort Wortwahl). Und drittensGewährleistung eines umfassenden Datenschutzes und der Anonymität für die riesigen Datenmengen, die in komplexe ML-Modelle einfließens selbst stellt eine große Herausforderung dar.
Einführung in datenschutzgerechtes Maschinelles Lernen
Zur Bewältigung Herausforderungen zu begegnen, gibt es eine Reihe vielversprechender Techniken, die derzeit getestet werden, um einen angemessenen Schutz der individuellen Datenschutzes bei ML getestet. Dazu gehören Föderiertes Lernen, Differenzieller Datenschutzund Homomorphe Verschlüsselung. Diese befinden sich größtenteils noch im Anfangsstadium der Erforschung ihrer potenziellen Verwendung zum Schutz der Privatsphäre der Verbraucher in ML auf Skalaund und befinden sich in den Händen von Forschern in der akademischen Welt oder in großenst Technologieunternehmen. Welcheh von diesen wird der Standard wird und wie wird sieridge die Lücke, um die Bedürfnisse von ML in der Produktion kennenlernen , bleibt abgewartet abwarten.
Föderiertes Lernen
Federated Learning ist ein ein Beispiel für den allgemeineren Ansatz, "den Code zu den Daten zu bringen, anstatt die Daten zum Code"., und daher behandelt einige der der grundlegenden Probleme der Privatsphäre, des Eigentums und der physischen Standorttion von Daten. Föderiertes Lernen ist ein kollaborativer Ansatz, der das training ML-Modelle auf einer großen Satz von dezentralisierten Daten, die auf mehreren Client-Geräten vorhanden sind. Das Modell wird auf den Client-Geräten trainiert und muss daher nicht Übertragung von der Daten des Nutzer. Unter ihre persönlichen Daten auf dem Gerät des Kunden ermöglicht es ihnen zu erhalten direkte und physische Kontrolle über ihre eigenen Daten. Die Aufbewahrung der Datenproben auf den Geräten der Kunden, ohne dass diese Proben ausgetauscht werden müssen, ermöglicht es mehreren Parteien, eine gemeinsame ML Modell zu entwickeln, ohne zu müssen shaalle Daten untereinander die erstellens die erhöhte Anfälligkeit, die sich aus der Zusammenführung aller Daten ergibt zusammenführt an einem einzigen Ort.
Google, ein Pionier des föderierten Lernens, hat verwendet FL für die Personalisierung in seinem Gboard für die Personalisierung seiner prädiktiven Tastatur auf zig Millionen iOS- und Android-Geräten eingesetzt. Und tzusammen mitit der Einführung des des Pixel 4 stellte Google eine verbesserte Version der Now Playing-Musikerkennungstion Funktion die die Anzahl der abgespielten Songs in einer föderierten Art und Weise zusammenfasst und die beliebtesten Songs an einem bestimmten geografischen Standort.
Zu den Nachteilen des Konzepts des föderierten Lernens gehört die Tatsache, dass er erforderns viel Rechenleistung und Speicherplatz von den föderierten Geräten. Da die Modelle nur trainiert werden können, wenn die Geräte miteinander verbunden sind und Daten übertragen können, kann dies zu einer situationsbedingten Verzerrung der Daten zu den Daten, die in das Modell einfließen. Zum Beispiel kann ein Nutzer kann beispielsweise verschiedene Musikquellen hören (undd daher unterschiedliche Lieder), wenn er über WiFi und mobiler Daten. Und schließlich ist Federated Learning anfällig für "Vergiftungsangriffe", bei denen ein generatives adversarisches Netz (oder GAN) vorgibt, ein gutartiger Teilnehmer zu sein, um die Kontrolle über das Modell zu erlangen.
Differenzierter Datenschutz
Durchführbar Privacy is a vielversprechendwenn auch nicht neu, Ansatz für die Wahrung der Privatsphäre in ML. Entwickelt von Cynthia Dwork und anderen bei Microsoft im Jahr 2006 entwickelt, versucht DP versucht sicherzustellen, dass kein Individuum mit einer anderen Person verknüpft werden kann. tden Daten die zum trainieren eines ML-Modells verwendet werden. Diese bedeutet nicht, dass man nichts über eine über ein Individuum in einem Datensatz. Zum Beispiel, Daten veröffentlichen die zeigens eine starke Korrelation zwischen Rauchen und Lungenkrebs würde sensible Informationen über eine Person preisgeben, von der bekannt ist, dass sie raucht. Das ultimative Ziel für den Schutz der Privatsphäre besteht vielmehr darin, sicherzustellen, dass alles, was aus den freigegebenen Informationen über eine Person in Erfahrung gebracht werden kann, auch ohne die Daten dieser Person in Erfahrung gebracht werden kann. Allgemein ausgedrückt, ist ein Algorithmus "differentiell privat" wenn ein Beobachter, der die Ausgabe untersucht, nicht feststellen kann, ob die Daten einer bestimmten Person bei der Berechnung verwendet wurden.
DP schützt die Privatsphäre des Einzelnen, indem es den Datensatz mit einem sorgfältig festgelegten bestimmten Verteilung hinzugefügt wird, was dazu führt, dass die "Störung" der wahren Antwort führt. Die wahre Antwort plus Rauschen ist immer zurückgegeben als Ausgabe an den Nutzer zurückgegeben. Der Grad der Störung kann berücksichtigt werden, so dass die Gesamtgenauigkeit nicht wesentlich abnimmt, während für einzelne Daten immer ein ein gewisses Maß an "plausible Bestreitbarkeit" aufgrund der Zufälligkeit des Rauschens.
A wünschenswert Aspekt der DV ist, dass sie trotz ihrer schützenden Kraft meist mit einer sinnvollen Datenanalyse vereinbar oder ihr sogar zuträglich ist. In der empirischen Wissenschaft gibt es oft die Gefahr von "Überanpassung" Daten, um ermöglichen Schlussfolgerungen, die spezifisch für den Datensatz sind, und verlieren an Genauigkeit, wenn die Vorhersagen auf die größere Population verallgemeinert werden. Da DP auch Schutz vor einer solchen Überanpassung bietet, gehen seine Vorteile sogar über die Datensicherheit hinaus.
Apple verwendet seit einiger Zeit eine Form von DP seit 2017, um beliebte Emojis, Medienwiedergabeeinstellungen in Safari und mehr zu identifizieren.. Tas Unternehmen kombinierte DP mit . Federated Learning in seiner neuesten Version des mobilen Betriebssystems (iOS 13). Beide Techniken tragen dazu bei, die von Siri gelieferten Ergebnisse zu verbessern, ebenso wie Apps wie Apples QuickType Tastatur und iOS' Found In Apps-Funktion. Letztere durchsucht sowohl Kalender- als auch Mail-Apps nach den Namen von Kontakten und Anrufern, deren Nummern nicht lokal gespeichert sind.
Homomorphe Verschlüsselung
Homomorphe Verschlüsselung Die Verschlüsselung ist, wie die DV, nicht neu, genießt aber aufgrund ihres potenziellen Nutzens für den Schutz der Privatsphäre Bewahrung der Privatsphäre für Maschinelles Lernen. Der Grundgedanke ist, dass wir verwenden können Daten in verschlüsselter Form zum trainieren und Ausführen des ML-Modusl. Aus Wikipedia: "Homomorphe Verschlüsselung ist eine Form der Verschlüsselung, die es ermöglicht, Berechnungen mit dem Chiffretext durchzuführen und so ein verschlüsseltes Ergebnis zu erzeugen, das bei der Entschlüsselung mit dem Ergebnis der mit dem Klartext durchgeführten Operationen übereinstimmt." Das bedeutet zum Beispiel, dass Sie "Qhjr Thykhjr" (unter Verwendung der Ceasar-Chiffre) in einern ML training anstelle von meinem Namen (Jack Mardack)und eine ähnlich verschlüsselte Ausgabe zurückgeben. Sie können auch das ML Modell selbstverschlüsseln, was wertvoll ist in Fall von Federated Learning, wo es notwendig ist, das Modell auf Daten zu übertragen (z.B.: auf das Gerät des Kunden). Das bedeutet, dass Sie das Modell schützen können selbst mit Verschlüsselung schützen, ebenso wie die training .
Es mag naheliegend erscheinen, Daten durch Verschlüsselung zu schützen, aber die Nützlichkeit dieses Ansatzes wird durch die Auswirkungen auf die Leistung erheblich eingeschränkt. Homomorphe Verschlüsselungsbibliotheken nutzen die Vorteile der modernen Hardwarebeschleunigung nicht ausund machen die ML-Modelle ~10X langsamer als andere Ansätze. Es gibt jedoch Forschungsteams bei Intel, Facebook und IBM (neben anderen), die die daran arbeiten, diese Lücke zu schließen.
Es besteht natürlich ein großes Interesse an homomorpher Verschlüsselung in ML-Anwendungsfällen von den mehr hochregulierten Branchenwie dem Gesundheitswesen und dem Bankwesenin denen die Möglichkeit einer Ende-zu-Ende-Verschlüsselung höchst wünschenswert ist.
Schlussfolgerung
Wir befinden uns an einem interessanten Scheidewegund zwar sicher. Es herrscht nahezu Einigkeit darüber, dass ML und KI sich anschicken, die menschliche die menschliche Erfahrung auf mehrere lebensverändernden Dimensionen, von wie wir bleiben Gesundheity, wie wir arbeiten und schaffenbis hin zur Erleichterung unzähliger alltäglicher menschlicher Aktivitäten.
Aber es scheint, dass sich für die Verbraucher beide Seiten der Risiko-Ertrags-Skala verändern. Bislang waren die Vorteile, die sich aus der Weitergabe unserer Daten an kommerzielle Unternehmen ergeben, vergleichsweise bescheiden - in Bezug auf personalisiertere Newsfeeds in unseren sozialen Apps oder relevantere Empfehlungen von der E-Commerce-Seiten von denen wir kaufen. Sehr soon, wird der Wert, den wir aus ML und KI ziehen können, jedoch viel, viel größer sein. Dass diese Technologien für viele von uns den Unterschied zwischen Leben und Tod bedeuten werden, ist keine Übertreibung. Aber, die Art der Daten, die wir teilen müssen um die Vorteile nutzen zu können, ist auch viel sensiblerund führt zu einer noch nie dagewesenen Belastung für die Verbraucher.. Das Zusammenspiel zwischen beiden Seiten dieser Gleichung wird sowohl unsere Akzeptanz (die Bereitschaft, mit der die wir teilen unserer persönlichsten Daten), als auch die die weitere Entwicklung des Schutzes der Privatsphäreon Methoden, wie die oben beschriebenen.
In dieser Hinsicht steckt die ML mit Schutz der Privatsphäre noch in den Kinderschuhen. Die Arbeit an bisher an diesen Fronten wurden fast ausschließlich von Forschern durchgeführt, die sich auf ihre eigenen Spekulationen über die Art der wahrscheinlichen Angriffen oder Verstößen. Im Gegensatz zu dem Schutz, den wir heute vor Computerviren genießen vor Computerviren genießen (der sich auf jahrzehntelange Angriffe in der Praxis stützt), haben wir keine Ahnung, was die "bösen Jungs" tatsächlich tun werden. Wir müssen abwarten und dann lernen, uns verbessern und aufholen.
Lesen Sie weiter: Ein großer Pharmakonzern hat jetzt Zugriff auf die genetischen Daten von 23andMe. Sollten Sie besorgt sein?
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden: Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.