Guía para legos sobre el aprendizaje automático y la privacidad de los datos de los clientes
Parece parece que fue ayer que la mayoría de la gente equiparaba el «aprendizaje automático» y la «inteligencia artificial» con la ciencia ficción la mayoría gente gente ajenos al mundo de la tecnología. Como cinefilos , tenemos una larga historia de asociadosse asocia estos conceptos con robots autoconscientes o programas informáticos rebeldes que podríanpodrían escapar de los laboratorios donde fueron creados y amenazar a toda la humanidad. Pero en 2020, el aprendizaje automático y la IA se han desmitificado considerablemente. Y, sin embargo, aunque ahora parezca menos probable que la Singularidad se desencadene por el pocamenor ambición de alguna startup tecnológica, los consumidores tienen nuevos motivos para preocuparse.
Sí, el aprendizaje automático y la inteligencia artificial se están generalizando, y no se trata solo de las startups con mentalidad disruptiva las que están las que están aprovechando estas tecnologías.empresas de una amplia gama de sectores consolidados están encontrando razones comerciales sólidas para financiar estas proyectos proyectos y sacarlos del laboratorio a la producción, con muchas implicaciones interesantes para sus clientes.
Sobrela implicación, que es el tema de este artículo, es la creación de una nueva categoría de privacidad de los datos personales vulnerabilidad.. Y la mayoría de buempresas que quieren aprovechar el aprendizaje automático tendrán tendrán que aprender a proteger asus clientess de estos nuevas vulnerabilidades.
Else cpreocupaciónsurge surgen en primer lugar porqueél «modelos» que hacen que el aprendizaje automático funcione tienen que entrenarse con datos, y muchos. A medida que las empresas buscan generar valor comercial a partir de estos nuevos programas de aprendizaje automático (como los agentes conversacionales, en tiempo realen tiempo real análisis de riesgos y fraudes, y atención sanitaria predictiva), van a entrenar sus modelos con algún tipo de datos de clientes. En muchos casos, datos de clientes de carácter muy privado.
A medida que nos adentramos en lo que sin duda es una nueva era en cuanto a la concienciación de los consumidores sobre sus derechos en materia de privacidad de datos, junto con la llegada de nuevas normativas como el RGPD y CCPA, es el momento oportuno para reflexionar sobre cómo coexistirán el aprendizaje automático y la privacidad de los datos de los consumidores.
Ya no es un problema hipotético
Por desgracia, ya se ha salido un poco de pasta de dientes del tubo. Varias recientes polémicas ponen de manifiesto la magnitud potencial del problema del aprendizaje automático y la privacidad de los datos de los clientes. Google (cuyo acuerdo de intercambio de datos de salud con con Ascension fue objeto de escrutinio en noviembre) abandonó sus planes de publicar radiografías de tórax debido a la preocupación de que contuvieran información de identificación personal. El Royal Free London NHS Foundation Trust, una división del Servicio Nacional de Salud del Reino Unido con sede en Londres, proporcionó a DeepMind, de Alphabet, datos de 1,6 millones de pacientes sin su consentimiento. El verano pasado, Microsoft eliminó discretamente eliminó un conjunto de datos (MS Celeb) con imágenes de más de 10 millones de personas después de que se revelara que algunas no sabían de que habían sido incluidas.
Y resulta queque los que’hemos hemos recibimostener una sensación inquietante cuandocada vez expresamosnuestros nuestros deseos más profundos a un motor de cumplimiento de deseos basado en IA, y buenas motivos para hacerlo. Apple y Google han sido objeto de recientes que revelaban el posible uso indebido de grabaciones recogidas para mejorar inteligencia aasistentes como Siri y el Asistente de Google. En abril, Bloomberg reveló que Amazon hahabía había utilizandog contratocontratistas tpara transcribir y anotar grabaciones grabaciones extraídas de dispositivos con tecnología Alexa, lo que ha llevado a la empresa a lanzar nuevas herramientas para los usuarios que permiten eliminar tus datos almacenados en la nube.
Por qué el aprendizaje automático agrava los problemas de privacidad de los datos
Dentro de una base de datos, se pueden distinguir los distintos datos relacionados con una persona, desde el punto de vista de la privacidad, por el tipo de información que contienen. Un conjunto de datos se compone de «puntos de datos» (miembros específicos de una población) y «características» (los valores de los atributos asociados a cada persona). En el caso de los historiales médicos, por ejemplo, las características podrían ser su nombre, la edad, sexo, estado, religióny enfermedad. La primera columna representa la información de identificación personal (PII), que identifica de forma única a una persona, p. ej.: su nombre completo o su número de la seguridad social. El segundo tipo de característica que contiene se denomina «cuasiidentificadores» (QI), que son categorías como la edad o el género que pueden atribuirse a más de una persona. Por lo tanto, esta información por sí sola no es suficiente para la identificación. Sin embargo, si se combina con otros QI e información externa, a veces es posible «reidentificar» a una persona.
Tradicionalmente, eliminar la columna que contenía información confidencial de un conjunto de datos significaba que esa información concreta no podía deducirse a partir del propio conjunto de datos, sino únicamente mediante combinando y consultando información externa. La IA, sin embargo, puede recrear identidades incluso cuando se ha eliminado el indicador de identidad. A partir de un conjunto de currículos de, por ejemplo, se podría eliminar el género para evitar la discriminación de género durante el proceso de . Aunque los currículos se han anonimizado en ese sentido, una herramienta de aprendizaje automático podría detectar matices sutiles en el uso del lenguaje y, a partir de ello, deducir el género del candidato. En este caso, eliminar la columna no es suficiente para eliminar la información sensible de forma segura.
Históricamente, las tecnologías de IA no se han desarrollado teniendo en cuenta cuenta. Para Para alcanzar niveles fiables de precisión, los modelos requieren grandes conjuntos de datos de los que «aprender». Con el fin de proteger la privacidad individual en el contexto del big data, se han utilizado tradicionalmente diferentes técnicas de anonimización. Las tres más relevantes son el anonimato K, ladiversidad y la-proximidad, de las cuales examinaremos brevemente la primera. En el-anonimato, se seleccionan Qcuasi-Iidentificadores (p. ej.: nombre, religión) de ciertos individuos se eliminan o se generalizan (p. ej.: sustituir una edad concreta por un intervalo de edad) de modo que cada combinación de características reveladoras de la identidad aparezca en al menos k filas diferentes del conjunto de datos. El anonimato K es un «esconderse entre la multitud» para proteger la privacidad. Yof cada individuo forma parte de un grupo más amplio, cualquiera de los registros podría corresponder a una sola persona. La diversidad L y la-cercanía son extensiones de este concepto, que se describen con más detalle aquí. Estas modificaciones se se aplicarían antes de compartir los datos o se utilicen en un modelo de entrenamiento.Esto se denomina «publicación de datos con preservación de la privacidad». Sin embargo, con el auge de la IA, esta forma de protección es insuficiente.
Modelización estadística convencional solo podrían tener en cuenta un número limitado de variables. solo podrían tener en cuenta un número limitado de variables. Pero hoy en día, gracias a de técnicas de regularización y el decdecc de los ,, it se ha hecho posible para los modelos de aprendizaje automático tener en cuenta tener en cuenta miles de variables a partir de las cuales para realizar una única predicción. Con algoritmos capaces de extraer conclusiones a partir de conjuntos de datos tan grandes y complejos, surgen tres nuevas cuestiones conceptuales. EnEn primer lugar, con la dimensión en los conjuntos de entrenamiento de ML, implícitamente hay ahora una mayor probabilidad de que se incluya información sensible. En segundo lugar, estos nuevos y potentes modelos tienen más probabilidades de ser capaces de discernir esa información confidencial (por ejemplo: reconstruir el género a partir de sutiles diferencias en palabra ). Y, en tercer lugar, garantizar la privacidad y el anonimato totales de las enormes cantidades de datos incorporados a los complejos modelos de aprendizaje automático. supone supone un gran desafío.
Introducción al aprendizaje automático con preservación de la privacidad
Para hacer frente los retos mencionados, existen una serie de técnicas prometedoras que se están probando para proporcionar una protección adecuada de la privacidad de los datos privacidad de los datos individuales en el aprendizaje automático. Entre ellas se incluyen el aprendizaje federado, la privacidad diferencialy el cifrado homomórfico. En su mayor parte, todas ellas se encuentran en fases preliminares de exploración en lo que respecta a su uso potencial para proteger la privacidad de los datos de los consumidores en el aprendizaje automático a escala, y están en manos de investigadores del ámbito académico o de las grandes. empresas tecnológicas. ¿Cuálde estos se convertirá en el estándar y cómo seridge la brecha para satisfacer las necesidades del aprendizaje automático en producción sigue por ver.
Aprendizaje federado
FederEl aprendizaje un ejemplo del enfoque más general de «llevar el código a los datos, en lugar de llevar los datos al código», y por lo tanto aborda algunas de los básicos problemas de privacidad, propiedad y físicas ubicaciónde los datos de los datos. El aprendizaje federado es un enfoque colaborativo que implica entrenar modelos de aprendizaje automático en un gran conjunto de datos descentralizados presentes en múltiples dispositivos de los usuarios. El modelo se entrena en los dispositivos de los usuarios, por lo que no es necesario transferir los datos del usuario. Mantener sus datos personales en el dispositivo del cliente les permite mantener un control directo y físico de sus propios datos. Al conservar las muestras de datos en los dispositivos de los clientes, sin necesidad de intercambiarlas, se permite que múltiples partes desarrollen un MM sin tener que shacompartir todos los datos entre ellos lo cual generas la mayor vulnerabilidad que se deriva de poner todos los datos en en un solo lugar.
Google, pionera en el aprendizaje federado, ha utilizado el aprendizaje federado para la personalización en su Gboard en decenas de millones de dispositivos iOS y Android. Yjuntoel lanzamiento el Pixel 4, Google presentó una versión mejorada de su función de reconocimiento de música «Now Playing»función que que agrega el número de reproducciones de las canciones de forma federada, identificando las canciones más populares en una ubicación geográfica.
Entre los inconvenientes del enfoque del aprendizaje federado se encuentra el hecho de que requiere requieremucha mucha potencia de procesamiento y memoria de los dispositivos federados. Además, dado que los modelos solo pueden entrenarse cuando los dispositivos están conectados y pueden transferir datos, esto puede introducir un sesgo situacional en los datos que se introducen en el modelo. Por ejemplo, un usuario puede escuchar diferentes fuentes de música (und , por tanto, diferentes canciones) cuando está WiFi en lugar de los datos móviles. Y, por último, el aprendizaje federado es vulnerable a «ataques de envenenamiento», en los que una red generativa adversaria (o GAN) puede fingir ser un participante benigno para hacerse con el control del modelo.
Privacidad diferencial
Ddiferencial Pprivacidad is a prometedor, aunque no sea nuevo, enfoque para la protección de la privacidad en el aprendizaje automático. Desarrollado por Cynthia Dwork et al en Microsoft en 2006, DP intenta garantizar que no se pueda vincular a ninguna persona con tlos datos utilizados para entrenar un modelo de aprendizaje automático. Esto no significa que no se pueda descubrir nada sobre una persona ien un conjunto de datos. Por ejemplo, la publicación de datos que muestrenuna una fuerte correlación entre el tabaquismo y el cáncer de pulmón revelaría revelaría información sensible sobre una persona de la que se sabe que fuma. Más bien, el objetivo último de la privacidad es garantizar que cualquier dato que se pueda obtener sobre una persona a partir de la información divulgada, se pueda obtener sin que se incluyan los datos de dicha persona. En términos generales, un algoritmo es «diferencialmente privado» si un observador que examine el resultado no es capaz de determinar si en el cálculo se utilizó la información de una persona concreta.
DP se encarga de proteger la privacidad de las personas añadiendo ruido aleatorio al conjunto de datos de una forma cuidadosamente determinada , lo que dará lugar a la «perturbación» de la respuesta verdadera. La respuesta verdadera más el ruido es siempre se devuelve como resultado al usuario. El grado de perturbación puede tenerse en cuenta de modo que la precisión general no disminuya significativamente, mientras que para los datos individuales siempre queda un grado de «negación plausible» debido al carácter aleatorio del ruido.
Un un aspecto de la DP del DP es que, a pesar de su solidez protectora, es en gran medida compatible con el análisis significativo de datos, o incluso beneficioso para este. En el ámbito de la ciencia empírica, a menudo la amenaza de «sobreajuste» los datos para permitir conclusiones específicas del conjunto de datos, y perder precisión cuando las predicciones se generalizan a una población más amplia. Debido a DP también ofrece protección frente a ese sobreajuste, por lo que sus ventajas van más allá de la seguridad de los datos.
Apple lleva tiempo utilizando algún tipo de DP desde 2017 para identificar emojis populares, preferencias de reproducción multimedia en Safari y mucho más.La empresa combinó DP con Federated Lha incorporado en su última versión del sistema operativo móvil (iOS 13). Ambas técnicas ayudan a mejorar los resultados que ofrece Siri, así como aplicaciones como Apple QuickType de Apple y la función «Buscar» In Apps. Esta última función busca en las aplicaciones de calendario y correo los nombres de los contactos y las personas que llaman cuyos números no están almacenados localmente.
Cifrado homomórfico
Homomórfico , al igual que la protección de datos (DP), no es algo nuevo, pero está recuperando relevancia por su potencial utilidad en la en el aprendizaje automático. La idea fundamental es que podemos utilizar los datos en forma cifrada para entrenar y ejecutar el modelo de aprendizaje automático. De Wikipedia: «El cifrado homomórfico es una forma de cifrado que permite realizar cálculos sobre el texto cifrado, generando así un resultado cifrado que, al descifrarse, coincide con el resultado de las operaciones realizadas sobre el texto sin cifrar.» Por ejemplo, esto significa que se podría utilizar «Qhjr Thykhjr» (utilizando el cifrado de César) en unn ML modelo de entrenamiento en lugar de mi nombre (Jack Mardack), y devuelva un resultado cifrado de forma similar. También puedes cifrar el modelo de aprendizaje automático modelo en sí mismo, lo cual resulta muy útil en el caso del aprendizaje federado, donde es necesario transferir el modelo a los datos (p. ej.: al el dispositivo del cliente). Esto significa que puedes proteger el modelo en sí mediante cifrado, así como los datos de entrenamiento.
Puede parecer obvio recurrir al cifrado para proteger los datos, pero la utilidad de este enfoque se ve considerablemente reducida debido a las implicaciones en el rendimiento. Las bibliotecas de cifrado homomórfico no aprovechan la aceleración por hardware moderna, lo que hace que los modelos de aprendizaje automático sean aproximadamente 10 veces más lentos que otros enfoques. Sin embargo, hay equipos de investigación en Intel, Facebook e IBM (entre otros) que están trabajando para ayudar a reducir esa diferencia.
Como es lógico, existe un gran interés por el cifrado homomórfico en los casos de uso del aprendizaje automático por parte de los sectores más regulados ,, como la sanidad y la banca, donde la posibilidad de un cifrado de extremo a extremo es muy recomendable.
Conclusión
Nos encontramos en una encrucijada interesante, sin duda .. Existe un consenso casi universal en que el aprendizaje automático y la IA están a punto de transformar la experiencia humana en múltiples dimensiones que cambiarán nuestras vidas , desde cómo nos mantenemos salud, hasta cómo trabajamos y creamos, pasando por la facilitación de innumerables actividades humanas cotidianas.
Pero parece que, para los consumidores, están cambiando tanto el lado del riesgo como el de la recompensa. Hasta ahora, los beneficios de compartir nuestros datos con empresas comerciales han sido relativamente modestos: se limitaban a feeds de noticias más personalizados en nuestras aplicaciones sociales o recomendaciones más relevantes de los sitios de comercio electrónico en los que compramos. Muy prontopronto, sin embargo, el valor que podemos obtener del aprendizaje automático y la inteligencia artificial va a ser mucho, mucho mayor. No es exagerado decir que estas tecnologías marcarán la diferencia entre la vida y la muerte para muchos de nosotros. Pero, la naturaleza de los datos que tendremos que compartir para poder aprovecharlas es también mucho más sensible, lo que supone una exposición sin precedentes para los consumidores. La interacción entre ambos lados de esta ecuación va a determinar tanto nuestra adopción (la disposición a la que compartiremos nuestros datos más personales), como la evolución de la protección de la privacidaden , como los descritos anteriormente.
En ese sentido, el aprendizaje automático con protección de la privacidad se encuentra aún en una fase muy incipiente. El trabajo para realizado en estos ámbitos ha sido realizado casi en su totalidad por investigadores basándose en sus propias especulaciones sobre la naturaleza de posibles ataques o violaciones de seguridad. A diferencia, por ejemplo, del nivel de protección del que gozamos hoy en día frente a los virus informáticos hoy en día (que se basa en décadas de ataques en el mundo real), no tenemos ni idea de lo que los «malos» hagan realmente. Tendremos que esperar y ver qué pasa, y luego aprender, mejorar y ponernos al día.
Más información: Una importante empresa farmacéutica tiene ahora acceso a los datos genéticos de 23andMe. ¿Debería preocuparte?