L'essor des réseaux sociaux les progrès de la technologie mobile ont multiplié de manière exponentielle les moyens de créer et de partager de l'information. Des outils de traitement des données avancés, tels que l'IA et la science des données, sont de plus en plus souvent utilisés pour traiter et analyser ces données. L'intelligence artificielle (IA) associe l'informatique à jeux de données des modèles robustes afin de faciliter la résolution automatisée de problèmes. Les modèles d'apprentissage automatique (ML), un sous-domaine de l'IA qui utilise des techniques statistiques permettant aux ordinateurs d'apprendre sans programmation explicite, exploitent les données saisies pour entraîner et des réponses destinées aux utilisateurs. Ces données sont mises à profit pour prendre des décisions cruciales concernant la stratégie gouvernementale, l'éligibilité à l'aide publique, les soins médicaux, l'emploi, l'assurance et la notation de crédit.  

En tant que l'une des plus grandes entreprises technologiques au monde, Amazon Web Services (AWS) s'appuie fortement sur l'IA et l'apprentissage automatique pour répondre à ses besoins en matière de stockage, de traitement et d'analyse des données. Mais en 2015, malgré sa taille et son niveau de sophistication technique, l'entreprise a découvert un biais dans son algorithme de recrutement. Celui-ci favorisait les hommes, car l'ensemble de données sur lequel il s'appuyait était basé sur les candidats des dix dernières années, qui comprenait un échantillon beaucoup plus important d'hommes que de femmes. 

Un biais a été détecté dans un algorithme COMPAS (Correctional Offender Management Profiling for Alternative Sanctions), utilisé par les systèmes judiciaires américains pour prédire la récidive des délinquants. Les données utilisées, le modèle choisi et l'algorithme employé ont globalement montré qu'il produisait des faux positifs pour près de la moitié (45 %) des délinquants afro-américains, contre 23 % pour les délinquants d'origine européenne. 

En l'absence de protocoles et de réglementations visant à mettre en place des contrôles et des équilibres pour une utilisation responsable de l'IA et de la ML, la société se retrouvera sur une pente glissante de problèmes liés aux préjugés fondés sur la classe socio-économique, le sexe, la race et même l'accès à la technologie. Wn l'absence de données propres, les algorithmes peuvent intrinsèquement créer des biais, simplement en raison de l'utilisation d'ensembles de données inexactes, incomplètes ou mal structurées. Pour éviter les biais, il faut commencer par évaluer avec précision la qualité du jeu de données:

  • Propre et cohérent.
  • Représentatif d'un échantillon de données équilibré.
  • Clairement structuré et défini par des règles de gouvernance équitables et leur mise en œuvre.

Définir les biais de données de l'IA

Le problème lié à l'utilisation de l'intelligence artificielle pour prendre des décisions importantes réside dans l'existence et le risque de biais susceptibles d'entraîner des disparités importantes au sein des groupes vulnérables et des communautés défavorisées. Ce problème tient en partie au volume et aux méthodes de traitement du Big Data, mais il existe également un risque que les données soient utilisées intentionnellement pour perpétuer la discrimination, les préjugés et les résultats inéquitables 

"Ce qui commence par un biais humain se transforme en un biais algorithmique", déclare le Gartner. En 2019, des chercheurs de Harvard ont défini le biais algorithmique comme l'application d'un algorithme qui aggrave les inégalités existantes en matière de statut socio-économique, de race, d'origine ethnique, de religion, de sexe, de handicap ou d'orientation sexuelle et qui amplifie les inégalités dans les systèmes de santé. Gartner a également expliqué quatre types de biais algorithmiques :

  • Biais amplifiéBiais systémique ou involontaire dans le traitement des données utilisées dans l'apprentissage algorithmes d'apprentissage automatique.
  • Opacité des algorithmesLes boîtes noires de données de l'utilisateur utilisateur , qu'elles soient intrinsèques ou intentionnelles, suscitent des inquiétudes quant aux niveaux d'intégrité lors de la prise de décision.
  • Processus déshumanisés: les opinions sur le remplacement de l'intelligence humaine par la ML et l'IA sont très polarisées, en particulier lorsqu'elles sont utilisées pour prendre des décisions critiques qui changent la vie.
  • Responsabilité des décisions : les organisations qui utilisent la science des données pour élaborer des stratégies visant à atténuer les préjugés et la discrimination n'établissent pas suffisamment de rapports et ne rendent pas suffisamment compte de leurs décisions.

Une étude réalisée par Pew Research a révélé qu'"à un niveau général", 58 % des Américains estiment que les programmes informatiques refléteront toujours un certain niveau de partialité humaine - bien que 40 % pensent que ces programmes peuvent être conçus de manière à être exempts de partialité. Cela peut être vrai lorsque vous examinez des données sur les expéditions dans une Chaîne d'approvisionnement ou un inventaire prédisant quand votre voiture a besoin d'une vidange, mais la démographie, les comportements et les préférences humaines peuvent être fluides et sujets à des changements basés sur des points de données qui peuvent ne pas être reflétés dans les ensembles de données analysés.

Les responsables des données et de l'analyse et les décideurs doivent se remettre en question en intégrant la prévention des biais dans leurs algorithmes de traitement des données. Cela peut s'avérer plus facile à dire qu'à faire, compte tenu du volume de données que de nombreuses organisations traitent pour atteindre leurs objectifs commerciaux.

Le coût élevé des préjugés

La découverte de disparités dans les données et la manipulation algorithmique pour favoriser certains groupes et en rejeter d'autres ont de graves conséquences. En raison de la gravité de l'impact des biais dans les Big Data, de plus en plus d'organisations accordent la priorité à l'atténuation des biais dans leurs opérations. InformationWeek a mené une enquête sur l'impact des biais de l'IA sur les entreprises utilisant de mauvais algorithmes. Elle a révélé que les préjugés étaient liés au sexe, à l'âge, à la race, à l'orientation sexuelle et à la religion. En termes de dommages pour les entreprises elles-mêmes, il s'agit notamment de :

  • Perte de revenus (62%).
  • Perte de clients (61%).
  • Perte d'employés (43%).
  • Payer des frais de justice en raison de procès et d'actions en justice intentés contre eux (35 %).
  • Atteinte à la réputation de leur marque et réactions négatives des médias (6 %).

Résoudre les biais dans les Big Data

La réglementation des biais et autres problèmes liés à l'utilisation de l'IA ou à la mauvaise qualité des données en est à différents stades de développement, selon l'endroit où l'on se trouve dans le monde. Par exemple, dans l'UE, une loi sur l'intelligence artificielle est en cours d'élaboration. Elle permettra d'identifier, d'analyser et de réglementer les biais de l'IA.

Cependant, le véritable changement commence avec les chefs d'entreprise qui sont prêts à faire le travail de base pour s'assurer que la diversité et l'utilisation et la gouvernance responsables restent au premier plan de leur utilisation des données et de leurs politiques. "Les responsables des données et de l'analyse doivent comprendre l'IA responsable et les éléments mesurables de cette hiérarchie - la détection et l'atténuation des préjugés, l'explicabilité et l'interprétabilité". Gartner affirme Gartner. L'attention portée à ces éléments favorise une approche globale de la recherche, de la résolution et de la prévention des problèmes liés à la partialité dans l'analyse des données.

Un manque d'attention à la construction de la confiance du public peut être très préjudiciable aux organisations qui dépendent des données. Mettez en œuvre ces stratégies dans l'ensemble de votre organisation afin de poser les bases d'une utilisation responsable des outils de la science des données :

  • Sensibiliser les parties prenantes, les employés et les clients sur l'utilisation éthique des données, y compris les limites, les opportunités et l'IA responsable.
  • Mettre en place un processus d'audit continu des biais en utilisant des équipes de révision interdisciplinaires qui découvrent les biais potentiels et les problèmes éthiques liés au modèle algorithmique.
  • Mandater des interventions humaines tout au long du processus de prise de décision lors du traitement des données critiques.
  • Encourager la collaboration avec des entités gouvernementales, privées et publiques, des leaders d'opinion et des associations en ce qui concerne la conformité réglementaire actuelle et future, la planification et la poursuite de la formation dans des domaines où les préjugés sont fréquents.

Pour minimiser les biais dans les big data, il faut prendre du recul pour découvrir comment ils se produisent et mettre en place des mesures et des stratégies préventives qui soient efficaces et évolutif. La solution devra peut-être être aussi grande que les big data pour surmonter avec succès les lacunes présentes aujourd'hui et qui augmenteront certainement à l'avenir. Ces stratégies sont un moyen efficace de rester informé, de mesurer le succès et de se connecter aux bonnes ressources pour s'aligner sur l'atténuation des biais actuels et futurs basés sur les algorithmes et l'analyse.

Ressources complémentaires :