Guía para legos sobre el aprendizaje automático y la privacidad de los datos de los clientes
Corporación Actian
16 de enero de 2020

En parece que fue ayer que "Aprendizaje Automático" e "Inteligencia Artificial" eran equiparados a ciencia ficción por la la mayoría de gente normal de gente normal fuera de la tecnología. Como cinéfila tenemos a larga historia de asociara estos conceptos con robots autoconscientes o programas informáticos malintencionados que cueden que podrían escapar de los laboratorios en los que fueron creados y amenazar a toda la la humanidad. Pero en 2020, el ML y la IA se han desmitificado considerablemente. Y, sin embargo, aunque ahora parezca menos probable que la Singularidad sea desencadenada por el reckambición de algunos alguna startup tecnológica, los consumidores tienen nuevas razones para preocuparse.
Sí, el ML y la IA se están generalizandoy no se trata solo de startups con mentalidad disruptiva que están están aprovechando estas tecnologías. Entreprises de una amplia gama de establecidos empresas de un amplio abanico de sectores proyectos avanzados de avanzados y sacarlos del laboratorio a la a la producción, con muchas implicaciones interesantes para sus clientes..
Ena implicación, que es el tema de este artículo es la creación de una nueva clase de vulnerabilidad vulnerabilidadies. Y una mayoría de businesses que quieren aprovechar el ML van que aprender a proteger lossus clientess de estos nuevas vulnerabilidades de vulnerabilidades.
Ene soncerns surgen en primer lugar porquel "modelos" que hacen funcionar el ML tienen que entrenarse con datos, muchos datos. A medida que las empresas tratan de crear valor empresarial a partir de estos nuevos programas de ML (como los agentes conversacionales, tiempo reale análisis de riesgos y fraudes, y asistencia sanitaria predictiva), van a a entrenar sus modelos con datos de clientes de algún tipo. En muchos casos, datos de clientes muy privados.
A medida que iniciamos lo que sin duda es una nueva era en la concienciación de los consumidores sobre los derechos de privacidad de datos, combinada con la llegada de nuevas normativas como el GDPR y la CCPAresulta oportuno contemplar cómo coexistirán el LD y la privacidad de los datos de los consumidores.
Ya no es un problema hipotético
Por desgracia, parte de la pasta de dientes ya se ha escapado del tubo. Una serie de polémicas recientes ponen de manifiesto la magnitud potencial del problema de la privacidad de los datos de clientes y ML. Google (cuyo acuerdo para compartir de datos sanitarios con Ascension se convirtió en objeto de escrutinio en noviembre) abandonó sus planes de publicar radiografías de tórax por temor a que contuvieran información de identificación personal. El Royal Free London NHS Foundation Trust, una división del Servicio Nacional de Salud del Reino Unido con sede en Londres, proporcionó a DeepMind, de Alphabet, datos de 1,6 millones de pacientes sin su consentimiento. El pasado verano, Microsoft eliminó un conjunto de datos (MS Celeb) con imágenes de más de 10 millones de personas tras revelarse que algunos no eran conscientes que habían sido incluidos.
Y resulta quet los que'hemos sido getting una sensación espeluznante cuandocada vez que expresamosed nuestros deseos más profundos a un motor de motor de realización de deseos basado en IAtenía buena razón para ello. Apple y Google han sido objeto de recientes informes que revelaban el posible uso indebido de grabaciones recogidas para mejorar la artificial agentes artificiales como Siri y Google Assistant. En abril Bloomberg reveló que Amazon had sido utilizandog contratoors tpara transcribir y anotar audio grabaciones en de dispositivos con Alexa, lo que ha llevado a la empresa a lanzar nuevas herramientas para el usuario permiten borrar tus datos almacenados en la nube.
Por qué el ML agrava la privacidad de los datos
Dentro de una base de datos, se pueden distinguir los distintos puntos de datos asociados a un individuo, desde el punto de vista de la privacidad, por la clase de información que contienen. Un jeu de données se compone de "puntos de datos" (miembros concretos de una población) y "características" (los valores valores de los atributos asociados a cada persona). En el caso de los historiales médicos por ejemplo, las características podrían ser su nombre, edad, sexo, estado, religióny enfermedad. La primera columna representa la Información de Identificación Personal (IIP), que identifica de forma única a una persona, por ejemplo,: su nombre completo o su número de la seguridad social. El segundo tipo de característica contenida se denomina cuasi identificadores (QI), que son categorías como la edad o el sexo que pueden atribuirse a más de un individuo. Por lo tanto, esta información por sí sola no es suficiente para la identificación. Sin embargo, si se combina con otros QI e información externa, a veces es posible "reidentificar" a una persona.
Tradicionalmente, eliminar la columna que contenía información sensible en un jeu de données significaba que esta información específica no podía volver a inferirse desde el propio jeu de données , sino sólo mediante combinando y consultando información externa. Sin embargo, la IA puede recrear identidades incluso sin el indicador de identidad. A partir de un conjunto de empleo candidatos, por ejemplo, el sexo puede eliminarse para evitar la discriminación por razón de sexo durante el proceso de selección. candidato candidatos. Aunque los currículos se hayan desidentificado en ese sentido, una herramienta de ML podría captar matices sutiles en el uso del lenguaje y, a partir de ahí, inferir el sexo del candidato. En este caso, la eliminación de la columna no es suficiente para eliminar la información sensible de forma segura.
Las tecnologías de IA no se han desarrollado históricamente teniendo en cuenta la privacidad. privacidad. Para alcanzar niveles fiables de precisión, los modelos requieren grandes conjuntos de datos de los que "aprender". Para proteger la privacidad individual en el contexto de los macrodatos, se han utilizado tradicionalmente diferentes técnicas de anonimización. Las tres más relevantes son el anonimato K L-y T-de las cuales examinaremos brevemente la primera. En K-anonimatoseleccionado Quasi-Identificadores (por ejemplo: nombre, religión) de determinados individuos se eliminan o se generalizan (por ejemplo,: sustituyendo una edad concreta por un intervalo de edad) de modo que cada combinación de características reveladoras de la identidad aparezca en al menos k filas distintas del jeu de données. El anonimato K es un enfoque de "esconderse en la multitud" para proteger la privacidad. para proteger la privacidad. If cada individuo forma parte de un grupo más amplio, cualquiera de los registros podría corresponder a una sola persona. L-diversidad y T-son extensiones de este concepto, que se describen con más detalle aquí. Estas modificaciones se antes de compartir los datos o se utilicen en un modelo de entrenamiento. Tsto se denomina publicación de datos con preservación de la privacidad. Sin embargo, con el auge de la IA, esta forma de protección es insuficiente..
Estadística convencional modelización sólo podrían tener en cuenta un número limitado de variables. Pero hoy en día, debido de técnicas de regularización y la declining de la computación computación en la nube, it ha hecho posible que los modelos ML a considerar miles de variables a partir de las cuales para hacer una única predicción. Con algoritmos que pueden hacer inferencias a partir de conjuntos de datos tan grandes y complejos, surgen tres nuevas cuestiones conceptuales. Fn primer lugar,con la ampliada dimensionalidad de los conjuntos de entrenamiento de ML, implícitamente hay ahora a mayor probabilidad de que se incluya información sensible. En segundo lugarestos nuevos y potentes modelos tienen más probabilidades de poder discernir que la información sensible (por ejemplo,: reconstruir el género a partir de sutiles diferencias en palabra elección de palabras). Y en tercer lugargarantizar la privacidad y el anonimato de las grandes cantidades de datos incorporados a los complejos modelos de ML.s mismo presenta un reto importante.
Introducción al aprendizaje automático con preservación de la privacidad
Para afrontar los retos mencionados, existen una serie de técnicas prometedoras que se están probando para ofrecer una protección adecuada de individual privacidad de los datos individuales en el ML. Entre ellas se encuentran Aprendizaje federado, Privacidad diferencialy Cifrado homomórfico. En su mayor parte, todos ellos se encuentran en las fases preliminares de exploración en lo que se refiere a su uso potencial para proteger la privacidad de los datos de los consumidores en LD en escalay están en manos de investigadores del mundo académico o del granst actores tecnológicos. ¿Quéón de estos se convierte en el estándar y cómo seridge para satisfacer las necesidades de ML en la producción. aún producción.
Aprendizaje federado
Federated Learning es un ejemplo del enfoque más general de "llevar el código a los datos, en lugar de los datos al código"., y así, aborda en algunas de las básicos problemas de privacidad, propiedad y física locación de los datos. El aprendizaje federado es un enfoque colaborativo que implica la formación modelos de ML en un gran conjunto de datos descentralizados presentes en múltiples dispositivos cliente. El modelo se entrena en los dispositivos cliente, por lo que no es necesario transferir los datos del usuario. Manteniendo sus datos personales en el dispositivo del cliente les permite conservar el control directo y físico de sus propios datos. Mantener las muestras de datos en los dispositivos de los clientes, sin necesidad de intercambiar dichas muestras, permite a varias partes desarrollar un ML común sin tener que shatodos los datos entre ellos que creans la mayor vulnerabilidad que se deriva de reunir todos los datos juntos en un solo lugar.
Google, pionero del aprendizaje federado, ha utilizado FL para personalizar su Gboard en decenas de millones de dispositivos iOS y Android. Yunto conon el lanzamiento del Pixel 4, Google estrenó una versión mejorada de su función de reconocimiento de música Now Playingción de música que agrega los recuentos de reproducciones de canciones de forma federada, identificando las canciones más populares en una ubicación geográfica.
Entre los inconvenientes del enfoque de aprendizaje federado se encuentran el hecho de que que requieres mucha capacidad de procesamiento y memoria de los dispositivos federados. Además, como los modelos sólo pueden entrenarse cuando los dispositivos están conectados y pueden transferir datos, esto puede introducir un sesgo situacional en los datos que se introducen en el modelo. en los datos que se introducen en el modelo. Por ejemplo, un usuario puede escuchar distintas fuentes de música (yd por tanto, canciones diferentes) cuando está conectado a WiFi frente a datos móviles. Y por último, el aprendizaje federado es vulnerable a "ataques de envenenamiento", en los que una red generativa adversarial (o GAN) puede hacerse pasar por un participante benigno para hacerse con el control del modelo..
Privacidad diferencial
Differencial Privacía is a prometedorprometedor, aunque no nuevo, enfoque para la preservación de la privacidad en ML. Desarrollado por Cynthia Dwork y otros en Microsoft en 2006, DP intenta garantizar que ningún individuo pueda ser vinculado a tlos datos utilizados para entrenar un modelo ML. Este no significa que no se pueda descubrir nada sobre un individuo in un jeu de données. Por ejemplo publicar datos que muestrans una fuerte correlación entre el tabaquismo y el cáncer de pulmón sería información sensible sobre una persona que se sabe que fuma. Más bien, el objetivo último de la privacidad es garantizar que todo lo que pueda saberse sobre un individuo a partir de la información divulgada, pueda saberse sin que se incluyan los datos de ese individuo. En términos generales, un algoritmo es "diferencialmente privado" si un observador que examina el resultado no puede determinar si en el cálculo se ha utilizado información de una persona concreta.
DP trabaja para proteger la privacidad individual añadiendo ruido aleatorio al jeu de données de una forma cuidadosamente determinada. determinada distribución, lo que conducirá a la "perturbación" de la respuesta verdadera. La respuesta verdadera más el ruido es siempre devuelve como salida al usuario. El grado de perturbación puede tenerse en cuenta para que la precisión global no disminuya significativamente, mientras que para los datos individuales siempre queda un grado de de "negación plausible" debido a la aleatoriedad del ruido.
A deseable aspecto de la AD es que, en la mayoría de los casos, es compatible con un análisis de datos significativo, o incluso beneficioso para él, a pesar de su fuerza protectora. Dentro de la ciencia empírica, a menudo menudo la amenaza de "sobreajuste" datos para permitir conclusiones que son específicas del jeu de données, y pierden precisión cuando las predicciones se generalizan a la población más amplia. Dado que DP también ofrece protección contra este tipo de sobreajuste, por lo que sus ventajas van incluso más allá de la seguridad de los datos.
Apple ha estado utilizando alguna forma de DP desde 2017 para identificar emojis populares, preferencias de reproducción multimedia en Safari, etc.. Ta compañía combinó DP con Federated Learning en la última versión de su sistema operativo móvil (iOS 13). Ambas técnicas ayudan a mejorar los resultados que ofrece Siri, así como apps como de Apple QuickType de Apple y Found En de iOS. Esta última busca en las aplicaciones de calendario y correo los nombres de contactos y personas que llaman cuyos números no están almacenados localmente.
Cifrado homomórfico
Homomórfico El cifrado homomórfico, al igual que la AD, no es nuevo, pero está adquiriendo una relevancia renovada por su utilidad potencial en la preservación de la privacidad para el aprendizaje automático. privacidad en el aprendizaje automático. La idea esencial es que podemos utilizar datos encriptados para entrenar y ejecutar el modo MLl. En Wikipedia: "El cifrado homomórfico es una forma de cifrado que permite realizar cálculos sobre el texto cifrado, generando así un resultado cifrado que, cuando se descifra, coincide con el resultado de las operaciones realizadas sobre el texto plano." Por ejemplo, esto significa que podrías utilizar "Qhjr Thykhjr" (utilizando el cifrado cifrado Ceasar) en unn ML modelo de entrenamiento en lugar de mi nombre (Jack Mardack)y devolver un resultado cifrado similar. También se puede cifrar el modelo ML modelo mismoque es valioso en el caso del aprendizaje federado, donde es necesario transferir el modelo a los datos (por ejemplo,: a el dispositivo del cliente). Esto significa que puede proteger el modelo mismo con encriptación, así como los datos de entrenamiento.
Puede parecer obvio utilizar el cifrado para proteger los datos, pero la utilidad del enfoque se reduce significativamente debido a las implicaciones de rendimiento. Las bibliotecas de cifrado homomórfico no aprovechan la aceleración de hardware modernahaciendo que los modelos ML sean ~10X más lentos que otros enfoques. Pero hay equipos de investigación en Intel, Facebook e IBM (entre otros) que están trabajando para ayudar a cerrar la brecha.
Naturalmente, hay mucho interés en el Cifrado Homomórfico en casos de uso de LD desde más altamente regulados altamente reguladascomo la sanidad y la bancadonde la posibilidad de cifrado de extremo a extremo de extremo a extremo.
Conclusión
Nos encontramos en una interesante encrucijadapara estar seguro. Existe un acuerdo casi universal en que ML y la IA están a punto de transformar transformar la experiencia humana en múltiples dimensiones que cambian la vida dimensiones, desde cómo nos mantenemos saludy, cómo trabajamos y creamoshasta la facilitación de innumerables actividades humanas mundanas..
Pero parece que ambos lados de la escala riesgo/recompensa están cambiando para los consumidores. Hasta ahora, los beneficios de compartir nuestros datos con empresas comerciales han sido relativamente modestos. más personalizadas en nuestras aplicaciones sociales, o recomendaciones más pertinentes de los sitios de comercio electrónico sitios de comercio electrónico en los que compramos. Muy soon, sin embargo, el valor que vamos a ganar de ML y AI va a ser mucho, mucho mayor. No es exagerado decir que estas tecnologías marcarán la diferencia entre la vida y la muerte para muchos de nosotros. Pero, la naturaleza de los datos que tendremos que compartir con el fin de aprovechar también es mucho más sensiblecreando una exposición sin precedentes para los consumidores.. La interacción entre ambos lados de esta ecuación va a impulsar tanto nuestra adopción (la disposición con que compartiremos nuestros datos más personales), así como la evolución de la protección de la privacidad.on como los descritos anteriormente.
En este sentido, el ML con preservación de la privacidad se encuentra en una fase muy incipiente. Los trabajos en fecha en estos frentes ha sido realizado casi en su totalidad por investigadores que se basan en sus propias especulaciones sobre la naturaleza de posibles ataques o violaciones. posibles ataques o violaciones. A diferencia, por ejemplo, del estado de protección de que gozamos frente a los virus informáticos (que se basa en décadas de ataques en el mundo real), no tenemos ni idea de lo que los "malos" harán realmente. harán. Tendremos que esperar y ver, y luego aprender, mejorar y ponernos al día.
Más información: Una importante compañía farmacéutica ya tiene acceso a los datos genéticos de 23andMe. Debería preocuparle?
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.
Suscríbase a
(por ejemplo, ventas@..., soporte@...)