Comment nos données personnelles sont-elles collectées, utilisées et protégées ? Pour le meilleur ou pour le pire ?
Le dernier numéro de Regards croisés sur l’économie est consacré aux données personnelles, à leur collecte et à leur utilisation, aux promesses et aux craintes que celles-ci font naître, et aux garde-fous qu’il conviendrait de mettre en place les concernant. Il rassemble des articles et des entretiens de chercheurs, d’acteurs de l’entreprise ou de l’administration, complétés par quelques encadrés destinés à introduire des définitions ou à faire un point rapide sur une question particulière.
Les journaux économiques traitent désormais presque quotidiennement de questions liées aux données personnelles, qu’il s’agisse, par exemple, de vols de données et de condamnations d’entreprises. La société Equifax, dont l’activité consiste à évaluer la solvabilité des emprunteurs américains, vient d’accepter de payer 700 millions de dollars pour mettre fin aux enquêtes et poursuites lancées en 2017, après qu’un piratage à grande échelle a conduit au vol de données personnelles, dont les numéros et date d’expiration de plus de 200 000 cartes de crédit. Les pirates ont pu accéder à une énorme quantité d’informations parce qu’Equifax n’avait pas pris les mesures de sécurité les plus basiques (Les Echos du 23/07/2019). La presse se fait également écho des difficultés que la réglementation en matière de protection des données personnelles pose aux entreprises. Deux banques néerlandaises, ING et ABN AMRO, ont ainsi gelé leurs projets de marketing ciblé consistant à utiliser les données de paiement de leurs clients pour leur proposer des offres commerciales personnalisées, après que l’autorité de protection des données les a alertées sur la possible non conformité de ces pratiques au regard du règlement européen sur la protection des données personnelles (RGPD) (Les Echos du même jour). Nul doute que ces questions soient ainsi appelées à retenir de plus en plus l’attention.
Quelle(s) nouveauté(s) ?
Une première partie du numéro vise à situer le big data par rapport à ce qui existait précédemment. Emmanuel Didier explique ainsi en entretien que les statistiques publiques aux Etats-Unis, dont il a fait son champ privilégié d’étude, ont eu historiquement différentes utilisations dont, en premier lieu, celle de corriger une asymétrie d’information entre acheteurs et producteurs en matière de production agricole, avant d’être mobilisées pour orienter les politiques publiques. Changeant au passage le mode de collecte de ces statistiques pour adopter de plus en plus la technique de l’échantillonnage aléatoire. Plus récemment, elles ont également pu être utilisées pour évaluer ces mêmes politiques et surtout la performance des différentes administrations publiques, à travers des techniques quantitatives d’évaluation de l’activité des professionnels concernés, non sans susciter bien souvent, de leur part, une forte opposition. Si le big data représente une nouvelle étape de l'histoire de la statistique, sa particularité tient surtout à l’apparition des entreprises comme acteurs principaux dans la collecte et l’utilisation de ces données, ce qui n’était pas le cas jusqu’ici.
Thomas Renault explique ensuite en quoi celui-ci a transformé la recherche en économie. Les domaines les plus prometteurs sont les prévisions de court terme, d’une part, qui peuvent être effectuées à partir des requêtes réalisées sur Google, et la création d’indicateurs dans les pays où les données officielles ne sont pas fiables, d’autre part, à partir cette fois des transactions effectuées sur les sites marchands ou encore d’images satellites par exemple. Mais ces données permettent également d’offrir de nouvelles preuves empiriques sur de nombreuses questions qui intéressent la recherche en économie. Encore faut-il être conscient de leurs limites. N’offrant la plupart du temps que peu de recul, ces données ne sont souvent pas stables dans le temps, lorsque les plateformes modifient leurs paramètres. En outre, leur représentativité laisse à désirer, la composition de l’échantillon n’étant bien souvent connue que très partiellement. Un numéro récent de la revue Economie et statistique est consacré à cette question, avec un second numéro à suivre, qui devrait être consacré aux indices de prix.
Les deux articles suivants, d’Emmanuel Letouzé, démographe et économiste du développement, d’une part, et de Glen Weyl, chercheur chez Microsoft, d’autre part, qui pourront paraître trop sibyllins au lecteur ordinaire, veulent promouvoir des formes d’utilisation des données respectueuses de l’humain. Le premier cherche à préciser ce que pourrait être un traitement des données sécurisé et éthique, tourné vers le développement humain, et qui pourrait être déployé dans des pays ne disposant que de faibles capacités techniques et humaines. Le second se concentre sur une utilisation qui reconnaisse l’agentivité humaine et donc l’importance des individus.
Quelle économie ?
La deuxième partie regroupe des articles qui scrutent l’économie des données sous différentes dimensions. Pierre-Yves Geoffard montre l’intérêt pour la société, mais aussi la difficulté d’utiliser les informations collectées par les administrations publiques pour les besoins de leur activité, qui nécessite de les transformer en bases de données exploitables, ce qui a alors un coût, mais aussi d'en garantir la confidentialité.
Etienne Ollion s’interroge sur la science des données et la façon dont celle-ci pourrait concurrencer les sciences sociales. La multiplication des data scientists dans les organisations, appelés à traiter un grand nombre de données via des méthodes d’apprentissage automatique (machine learning) pourrait favoriser, explique l’auteur, une lecture largement a-sociale des phénomènes de société. Le format de l’article ne lui permet guère d’aller au fond des choses. On pourra toutefois se référer à un article plus ancien et disponible en ligne « Au-delà des big data. Les sciences sociales et la multiplication des données numériques » qu’il avait écrit avec Julien Boelaert.
Vincent Lefrere, doctorant en économie à l’Ecole des Mines, se penche sur les applications disponibles sur les deux plateformes, le Play Store (Google) et l’App Store (Apple), et présente les différents business modèles (freemium, publicité ciblée, revente de données personnelles…) qui permettent à leurs développeurs de se rémunérer, souvent en recourant à des « parties tierces », auxquelles ils permettront d’accéder aux données des utilisateurs.
Marion Fourcade relie l’obsession de nous-mêmes, dans laquelle nous plongent un certain nombre d’outils numériques, et l’exploitation à laquelle nous consentons, qui prend la forme dans la société digitale d’une moisson toujours plus abondante de données. Elle explique qu’une première manière d’attacher les individus au système et de les aligner à ses exigences passe par une moralisation et une responsabilisation qui visent à les rendre plus prévisibles. Une deuxième source de valeur, amenée à prendre de plus en plus de place, provient toutefois de l’exploitation de la différence, pour autant qu’elle puisse faire l’objet de calcul et donc d’interventions calibrées. « Grâce au raffinement croissant des données, le marché connaît en effet de plus en plus de choses sur les individus, parfois plus qu’ils n’en savent eux-mêmes. Il capitalise, ou cherche à capitaliser, sur leurs schémas comportementaux inconscients, sur leurs forces et leurs faiblesses, et éveille en eux des désirs et des comportements parfois très éloignés de leurs intentions (…) Et c’est ainsi que de nombreux projets et concepts sont conçus pour susciter des comportements exactement opposés à la rationalité économique, en jouant sur la dépendance et le narcissisme. » Moissonner les données n’a ainsi pas forcément beaucoup de sens. Mais l’article est trop court pour permettre d’entrer véritablement dans la pensée de l’autrice, et le lecteur intéressé devra se rabattre sur ses publications en anglais.
Quels garde-fous ?
La troisième partie, enfin, est centrée sur les risques de cette accumulation de données et les moyens de s’en prémunir. Sous l’influence du web participatif et des médias sociaux, la vie privée a pris la forme d’une négociation ouverte, évolutive et contextuelle, explique Paola Tubaro, pour qui cette négociation doit être collective, afin de sortir du cadre individualiste de la règlementation actuelle sur les données personnelles, et associer les droits des usagers et les enjeux généraux de l’économie et du travail de la donnée. Ce qui nécessiterait de proposer de nouvelles solutions, qui restent à définir, au croisement de ces trois univers, pour que la défense des données personnelles puisse s’allier à celle des droits des travailleurs de la donnée (les travailleurs du clic en particulier).
Colin Gérard, doctorant à l’Institut français de géopolitique et à l’Institut national de recherche dédié aux sciences du numérique, revient sur les affaires qui, ces dernières années, ont conduit à la fois à s’interroger sur la protection des données des utilisateurs des grandes plateformes du web et ont illustré l’importance prise par les données numériques, tant en matière de libertés publiques qu’en termes géopolitiques.
Magaly Beffy, Senior Data Scientist chez The Boston Consulting Group, qu’elle a rejoint après avoir fait carrière à l’INSEE, explique en entretien comment les mégadonnées et l'apprentissage automatique sont ou pourraient être utilisés dans les grands domaines de la protection sociale, l’emploi, la santé, la pauvreté et les retraites.
Enfin, Isabelle Falque-Pierrotin, qui est l’ancienne Présidente de la Commission Nationale de l’Informatique et des Libertés (CNIL), clôt le volume en présentant la philosophie, centrée sur un individu potentiellement maître de ses données, avec laquelle celle-ci aborde le nouveau règlement général sur la protection des données personnelles (RGPD), adopté en 2016 et entré en vigueur en mai 2018.
L’ensemble laisse le lecteur un peu sur sa faim, mais la revue tient globalement son objectif d’introduire un public intéressé aux principales questions du domaine.