A partir d’une série d’exemples issus de domaines variés, une mathématicienne pointe les nombreuses limites des algorithmes.

Cathy O’Neil a enseigné les mathématiques à l’université. Elle a ensuite travaillé quatre ans dans la finance, tout d’abord pour un important fond spéculatif, puis pour une entreprise qui fournissait aux banques des analyses de risques. Elle a ainsi pu mesurer, en étant aux premières loges au moment de la crise des subprimes de 2008, les effets délétères de certains usages des mathématiques visant à exploiter les inefficiences de marché au détriment d’investisseurs « stupides ».

Puis, elle a rejoint, en 2011, comme experte des données, une « jeune pousse du commerce en ligne », pour laquelle elle s’employait à identifier, à partir des données dont elle disposait, les clients potentiels parmi tous ceux qui se connectaient sur un site web.

A la même époque, elle a commencé à tenir un blog pour alerter contre l’utilisation approximative des statistiques et de modèles mathématiques biaisés, et elle s’est impliquée, de plus en plus, au sein du mouvement Occupy Wall Street. Elle s’est ensuite consacrée entièrement à montrer certains effets néfastes de l’utilisation des algorithmes et des données du Big data. Son livre, Weapons of Math Destruction, qui est paru aux Etats-Unis en 2016, a rencontré un grand succès. Il vient d’être traduit en français.

L’ouvrage passe en revue divers algorithmes utilisés dans différents domaines : de l’éducation à la politique, en passant par la justice et la police, la gestion de l’emploi, le crédit et l’assurance, etc. A partir de ces exemples, elle montre leurs effets négatifs.

 

Du mauvais usage des classements dans l’enseignement

L’auteure examine ainsi en premier un algorithme d’évaluation des enseignants basé sur les résultats de leurs élèves à des tests standard en début et fin d’année. Les données, qui sont dans ce cas de toute façon trop peu nombreuses pour avoir une réelle valeur statistique, sont ici truquées (comme les ratures en attestent) par des enseignants ou des directeurs d’école peu scrupuleux.

Elle poursuit, dans le même domaine, avec l’examen de l’outil de classement des universités américaines établi par U.S. News, qui est rapidement devenu un standard. Les données qu’il compile ne permettent d’appréhender que de manière indirecte et discutable la qualité des formations. Ce qui n’a pas empêché ce classement d’induire une véritable « course à l’armement » et à la dépense, où la manipulation des données trouve également sa place (celles-ci sont renseignées par les établissements eux-mêmes), qui n’est pas étrangère à la très forte augmentation des frais de scolarité et donc au fort endettement des étudiants américains.

Sans quitter l’éducation, C. O’Neil montre encore comment le ciblage publicitaire permis par le Big data est mis à profit par les établissements d’enseignement à but lucratif aux Etats-Unis, qui ciblent les personnes pauvres en utilisant l’ascenseur social comme appât pour les convaincre de s’inscrire dans des formations hors de prix sans réelle valeur sur le marché du travail.

 

Le « Minority Report » du pauvre

Dans un autre domaine, elle examine les logiciels de prédiction des crimes et délits, qui « font aujourd’hui fureur au sein des services de police », dont elle montre qu’ils conduisent le plus souvent à criminaliser les petits délits et donc à sanctionner un peu plus les plus pauvres. On peut faire le même reproche aux outils de prédiction de la récidive utilisés comme guide pour la détermination des peines, qui conduisent, là aussi, à punir plus rigoureusement – et à compliquer d’autant leur réinsertion – les pauvres et les gens de couleur, en fonction de ce qu’ils sont et non pas de ce qu’ils ont faits, en se basant sur l’hypothèse qui est au cœur du fonctionnement de ces outils « qui se ressemble s’assemble », ce qui est à la fois injuste mais aussi illégal, tout au moins en matière pénale.

Le recrutement est un autre secteur où les logiciels sont rois, qui bien souvent tombent là encore dans une forme ou une autre de discrimination, de manière le plus souvent totalement opaque.

Sans quitter le monde du travail, l’auteure montre également comment l’analyse des données – dont l’utilisation ne se limite donc pas à sélectionner ou cibler des individus – couplée aux logiciels de planning est à l’origine d’une déstructuration des horaires de nombreux emplois peu qualifiés dans la restauration ou la distribution en particulier.

 

Noter les individus

Les scores de crédit sont un domaine que les logiciels ont investi parmi les premiers, et qu’ils avaient plutôt contribué à rationaliser. Ceux-ci ont toutefois tendance à être construits aujourd’hui en agrégeant une multitude de données, et ils présentent les mêmes défauts que les algorithmes précédents, dont celui d’être assez fréquemment sujets aux erreurs (notamment, du fait d’erreur sur la personne). Ils ont la particularité de se diffuser à grande échelle, dans la mesure où ils sont utilisés à tout propos, dans le cadre de recrutements par exemple. Une dizaine d’Etats des Etats-Unis l’ont toutefois interdit.

Les applications des algorithmes et du Big data en matière d’assurance sont peut-être encore plus inquiétantes. Le secteur connaît une transformation fondamentale : les données à disposition, de plus en plus nombreuses, permettent aux assureurs de classer les individus dans des tribus de plus en plus petites, pour lesquelles ils calculent un risque spécifique, mais sur lesquelles ils accumulent également d’autres éléments permettant d’ajuster leur facturation de manière à maximiser leurs profits, au détriment le plus souvent, là encore, des plus démunis (moins bien informés et moins en situation de faire jouer la concurrence).

Les mêmes outils sont utilisés à l’occasion des campagnes électorales. Le ciblage permis par le Big data permet aujourd’hui à un candidat d’adresser à des petits groupes d’électeurs le message le plus à même de les décider à voter pour lui, sans en informer les autres, au détriment de la transparence la plus élémentaire et donc de l’exigence de cohérence et de vérité. Il lui permet en outre de concentrer ses efforts sur le petit nombre d’électeurs susceptibles de faire basculer un comté, un Etat, etc. Nous commençons seulement d’entrevoir les possibilités de manipulation dans ce domaine, qui sont extrêmement problématiques.

 

Vers une régulation des algorithmes ?

L’auteure évoque en conclusion quelques-unes des mesures qui devraient être prises pour réguler l’utilisation de ces modèles, depuis leur abandon pur et simple lorsqu’ils sont basés sur des données trop peu nombreuses et de fait sans valeur statistique ou des phénomènes trop complexes à modéliser, à la correction de leurs effets nocifs, lorsque c’est possible. Diverses démarches visant à auditer ces algorithmes existent déjà, qui consistent par exemple à leur soumettre des profils d’individus créés de toute pièce pour examiner la manière dont ceux-ci les traitent. Elles requièrent toutefois que les entreprises du Web acceptent ce type d’investigations, ce qui n’est pas le cas aujourd’hui pour Facebook ou Google par exemple.

L’Etat a un rôle à jouer en termes de réglementation. La situation sur ce plan est assurément bien meilleure en Europe qu’aux Etats-Unis, grâce à la RGPD, puisque la collecte de n’importe quelle donnée doit désormais y être autorisée par l’utilisateur et où, surtout, il est interdit qu’elle soit réutilisée à d’autres fins, ce qui en rend la vente illégale.

De manière générale, les entreprises qui développent et déploient les algorithmes devraient être les premières à en répondre, et il faudrait les obliger, explique l’auteure, à vérifier régulièrement la légalité, l’équité et l’exactitude de leurs algorithmes. Il faut toutefois garder en tête que nous n’aurons jamais une définition simple et universellement acceptée de qui caractérise un algorithme juste. C’est bien pourquoi nous devrions pouvoir en débattre, « de façon réfléchie, méticuleuse et inclusive », en portant la plus grande attention à la manière dont cet algorithme sera finalement utilisé et aux préjudices qu’il pourrait causer aux différentes parties concernées, conseille l’auteure.

Bien écrit et bien documenté, l’ouvrage est tout de même un peu long et comprend quelques répétitions entre l’introduction, la conclusion et la postface, qui auraient sans doute pu être raccourcies. On pourrait regretter qu’il ne traite d’aucun exemple français ou européen, et ne mentionne quasi aucuns travaux universitaires sur le sujet. Cela laisse en tout cas un vaste champ d’exploration pour des travaux et des livres futurs.

 

A lire aussi sur Nonfiction.fr :

- La critique de la version anglaise : Weapons of Math Destruction : How Big Data Increases Inequality and Threatens Democracy, par Thomas Vroylandt.