Le déluge de données modifie société et science. S’il contribue au progrès, il renforce aussi les inégalités par ses décisions opaques et massives.

Pour traiter de la diversité actuelle de l’utilisation des données massives, cet article propose une recension croisée de deux ouvrages aux visées complémentaires. Le premier, Les Big data à découvert, à visée principalement descriptive, est un livre collectif édité par le CNRS. L’objectif est d’établir un panorama large de l’utilisation des données massives, à la fois au niveau des techniques et des champs d’application, afin d’en donner à voir la multiplicité et d’en expliciter les promesses et les enjeux. Le second livre, Weapons of Math Destruction (non traduit en français à l’heure actuelle), est issu de l’expérience de l’auteure. Celle-ci se montre critique vis-à-vis de l’utilisation actuelle des Big data et dénonce les nombreuses dérives qu’elle a pu observer au cours de sa carrière professionnelle.

Les articles de presse traitant de l’intelligence artificielle, du « Big data », du « machine learning » et utilisent bien d’autres termes similaires sont de plus en plus nombreux ces dernières années. Qu’ils insistent sur les progrès de la science ou les dangers des algorithmes, leur objet reste la plupart du temps flou. En effet, sous des expressions parfois très semblables se cachent des réalités qui le sont moins. C’est l’incroyable diversité de ce champ que sont les « Big data » que présente l’ouvrage dirigé par Mokrane Bouzeghoub, informaticien, et Rémy Mosseri, physicien, intitulé Les Big data à découvert. Il rassemble sous forme de fiches d’un catalogue, regroupées par thème, des contributions de nombreux chercheurs français et internationaux dans des domaines aussi variés que l’informatique, les mathématiques, la physique, la médecine, les sciences sociales ou la biologie et bien d’autres encore. « Qu’est-ce que le Big data ? » est la question qui sert de fil conducteur à cet ouvrage.

 

Des données, toujours plus de données

Les données sont de plus en plus présentes dans de nombreuses disciplines scientifiques, mais aussi dans nos quotidiens. Il est toutefois à rappeler que chaque époque met en avant l’abondance des informations et ce de façon répétitive depuis plusieurs siècles. Le déluge de données actuel semble cependant marquer une rupture du fait du volume des données, produites chaque jour dans des proportions inenvisageables jusqu’alors, de leur variété, signaux, texte, vidéos, audio, bases de données, et de leur vitesse puisque les données sont produites et doivent être traitées dans des laps de temps très court, pour permettre l’affichage de la bonne publicité au client visitant un site internet par exemple.

Cette masse de données, autrement appelées « Big data », demande la mise en place de technologies spécifiques pour l’acquisition, la transmission, le traitement et la conservation des données. Ces technologies sont souvent transparentes pour les usagers et recourent à des techniques mathématiques et informatiques poussées. L’algorithme, programme partant des données existantes pour mener à la prise de décision, que ce soit l’affichage d’une publicité, le fait d’accorder un crédit, une prévision météorologique ou la détection d’une tumeur, est bien souvent une boîte noire pour les utilisateurs.

 

Des applications prometteuses en médecine et en sciences

Les « Big data » sont porteurs d’applications très prometteuses, faisant parfois même dire que la science entre dans une nouvelle ère. Ainsi, dans le domaine de la santé, l’imagerie cérébrale se trouve révolutionnée par ces nouvelles données massives et leurs analyses. Elles permettent de construire des outils de détection des tumeurs et sont ainsi très précieuses pour les praticiens. Des pistes s’ouvrent aussi par le séquençage et l’analyse de l’ADN des cancers pour adapter au mieux les thérapies pour les patients résistants aux thérapies standards. De façon similaire, la chirurgie pourrait se retrouvée aussi révolutionnée par de nouveaux outils d’assistances aux chirurgiens, permettant par exemple de simuler le geste à pratiquer avant les interventions difficiles et de guider le praticien lors de celles-ci.

D’autres applications sont aussi possibles en sciences, par exemple en physique, en climatologie ou en sismologie. Les données massives ont dans ces disciplines et d’autres un impact fort.

 

La société s’en retrouve modifiée elle-aussi

Plus près de chacun de nous, les « Big data » sont présents dans nos quotidiens, notamment au travers de l’usage que nous faisons d’Internet et des médias sociaux. Notre accès à l’information est permis, mais aussi ordonné par des algorithmes à l’exemple de Facebook qui trie les publications de nos « amis » en fonction de celles sur lesquelles nous sommes les plus susceptibles de cliquer et qui insère dans notre fil des publicités ciblées au mieux en fonction de nos goûts et de notre sociabilité. Les données massives et leur analyse sont porteurs d’enjeux sociaux forts. Elles portent en elles de nombreux dangers pour la vie privée de chacun, malgré les lois sur la protection des données personnelles. Nous confions nos données à des acteurs privées ayant pour objectif de nous vendre des produits et celles-ci sont partagées afin d’optimiser nos parcours d’achats.

Les données sociales permettent aussi de mettre en place des effets positifs, comme l’expérience de Santander, en Espagne le montre. La ville s’est entièrement équipée en capteurs permettant de détecter les places de parking libres et a, grâce aux « Big data », entièrement repensé sa politique urbaine.

 

Les dangers des algorithmes

Les « Big data » sont porteurs de nombreuses promesses, mais comportent aussi de nombreux dangers, comme le montre Cathy O’Neil dans son livre Weapons of Math Destruction. C’est là le récit de son expérience dans le monde des données, d’abord dans la finance puis comme « data scientist », professionnel chargé de construire les algorithmes issus des données. La thèse principale est que la révolution des données contribue à augmenter les inégalités au sein de la population. Ainsi il est possible au travers de la publicité ciblée, non seulement de proposer le produit qui va convenir le mieux aux individus, mais aussi de proposer des produits dangereux aux plus vulnérables, qui n’ont pas forcément l’information nécessaire pour en juger. Elle prend l’exemple de certaines universités aux Etats-Unis, dont les diplômes ne valent presque rien, mais coûtent très cher. En jouant sur la volonté des classes populaires de faire des études pour s’en sortir, elles achètent d’énormes quantités de publicité à destination de ce public et rentabilisent ainsi leur activité. Mais de l’autre côté, ces individus se retrouvent avec un diplôme inutile et un crédit important à rembourser, à des taux peu avantageux car souvent proposés par des organismes ayant eu aussi détecté leur besoin de crédit du fait de leur inscription à l’université. Les inégalités que contribuent à créer les données massives renforcent celles déjà existantes et font système.

En effet, la logique de ces algorithmes se fonde sur le passé, l’existant, puisque les données déjà engrangées ne concernent que le passé. En l’utilisant comme fondement aux décisions marketing, voire à des décisions plus importantes, comme le tri des CV préalable au recrutement ou le fait d’accorder un crédit, les algorithmes ne font que donner plus de force aux inégalités déjà existantes. Ces algorithmes sont massifs puisqu’ils s’appliquent à l’ensemble des individus présentant des caractéristiques similaires, invisibles du fait de l’aspect « boîte noire » des algorithmes, mais aussi difficilement contrôlables puisqu’une erreur de l’algorithme est difficile à faire corriger. Enfin ils se valident eux-mêmes. Ces programmes observent des inégalités dans le passé et en contribuant à les renforcer, les observent aussi dans le présent. Ils se donnent donc raison à eux-mêmes. Tous ces traits contribuent à forger des « armes de destruction mathématiques » bloquant les individus dans des engrenages et des catégories dont il est bien difficile de sortir.

 

Contrôler le progrès

Cathy O’Neil incite à se rappeler de la loi de Goodhart selon laquelle une mesure qui devient un objectif cesse d’être une mesure. Or le modèle n’étant pas optimisé pour la justice sociale mais pour l’efficacité, aucune solution miracle n’apparaît. Tout au plus propose-t-elle de mettre en place une charte d’éthique pour les « data scientist » qui construisent les algorithmes, incitant à se rappeler la réalité derrière les mathématiques, à tenir compte de l’équité du modèle et à ne pas se prendre pour Dieu régissant le monde par quelques règles informatiques et mathématiques. Cette charte pourrait donner lieu à un serment à l’instar du serment d’Hippocrate des médecins. Il est sûr que la révolution des algorithmes doit se nourrir d’une pensée sociale et non pas uniquement d’optimisation purement mathématique