Les données seraient aujourd'hui massivement disponibles, encore faut-il garder en tête que cette disponibilité requiert de nombreuses opérations, qui n'ont rien d'anodin.

Les données ont pris une importance croissante dans nos sociétés au cours des dernières décennies. Leur développement suscite des espoirs plus ou moins fondés mais également de sérieuses craintes. Nonfiction a publié ces derniers temps plusieurs recensions d’ouvrages concernant la nature des données, leur utilisation et les interrogations qu'elles soulèvent. Thomas Vroylandt a ainsi rendu compte du livre de Mokrane Bouzeghoub et Remy Mosseri, Les Big data à découvert (CNRS éditions, 2017), d'un numéro de la revue Pouvoirs ("La datacratie", janvier 2018) et de deux livres de Serge Abiteboul, avec Valérie Peugeot, Terra Data : qu'allons-nous faire des données numériques ? (Le Pommier, 2017) et avec Gilles Dowek, Le Temps des algorithmes (Le Pommier, 2017).

Jérôme Denis, professeur au Centre de sociologie de l’innovation de Mines ParisTech, se penche quant à lui, de manière originale, sur les données en amont de l’utilisation que l’on peut en faire, en se centrant sur leurs conditions de production et de transmission. Pour cela, il récapitule dans une première partie de son dernier ouvrage les résultats dégagés par toute une série d’auteurs, à partir de méthodes et de disciplines différentes, allant de l’ethnographie de laboratoire à celle de l’activité et du travail visible et invisible, en passant par l’anthropologie de la raison graphique ou encore les travaux portant sur les innovations managériales et administratives et leurs développements. Il restitue dans une deuxième partie les résultats de deux études de cas, portant, pour le premier, sur le traitement de dossiers clients dans une banque (soit le back-office des entretiens menés par les conseillers financiers) et, pour le second, sur les relations entre une start-up et l’administration de deux collectivités territoriales autour de la question des informations disponibles. Dans cet entretien, il revient sur les lignes directrices de son enquête.

 

 

Nonfiction : Vous avez publié récemment un livre où vous définissez un programme de recherche de sociologie des données qui part du principe que, contrairement à l’idée qu’il existerait des données brutes qu’il suffirait de collecter, celles-ci font nécessairement l’objet d’une transformation importante pour pouvoir être utilisées à des fins diverses et variées. Pourriez-vous éclairer ce point ?

Jérôme Denis : Le programme de recherche qui est exposé dans ce livre a vu le jour face à la généralisation de ce qui m’est apparu comme un « néo-positivisme » de la donnée. Dans les descriptions et les promesses faites autour des big data, mais aussi du côté du mouvement dit de l’open data et des politiques qui ont été mises en œuvre en son nom depuis une dizaine d’années, les données sont en effet presque toujours un point de départ, une évidence. Un matériau qu’on présente comme désormais massivement disponible.

L’objectif premier du livre était de rappeler que ce postulat est problématique. Pour cela, je reviens sur les travaux qui, en sociologie des sciences, mais aussi en anthropologie de l’écriture ou en histoire des organisations, ont montré que les données ne tombaient pas du ciel. Ces travaux nous expliquent d’une part qu’une donnée est toujours ancrée dans un contexte particulier d’utilisation, et d’autre part que la production des données repose sur un travail qui n’est jamais complètement mécanique malgré la longue histoire de la « rationalisation » de la production de l’information. C’est en ce sens que Geof Bowker écrit que la notion de « donnée brute » est un oxymore.

À l’heure où l’on assure que les données ont envahi tous les domaines de l’activité humaine, il me semble qu’une sociologie des données, armée de ces connaissances, peut aider à comprendre non seulement le travail des données en tant que tel, mais plus encore ce qui se joue dans sa mise en invisibilité. La sociologie des sciences a montré que cette démarche pouvait avoir une portée politique importante, par exemple autour de la question du réchauffement climatique. Paul Edwards a ainsi souligné les conséquences désastreuses d’une vision des données scientifiques qui n’insiste que sur leur pureté et leur immédiateté. Si l’on s’attache à cette idée, on ouvre la voie aux climato-sceptiques qui se permettent de remettre en cause les résultats des chercheurs sur le climat simplement parce qu’ils leur reprochent de « retoucher » leurs données. Assumer explicitement que les données sont toujours travaillées, montrer que ce travail est la condition même de leur scientificité (ou de leur efficacité pour les entreprises par exemple, de leur justesse, ou encore de leur qualité pour le débat citoyen) est un enjeu primordial en ces temps où les données sont présentées comme des ressources qui seraient naturellement disponibles et qu’il suffirait de libérer pour qu’elles circulent sans friction. C’est donner les moyens de rendre discutable le cœur du travail des données, plutôt que de prétendre que son effacement conditionne leur qualité.

 

Vous mettez ainsi l’accent sur l’importance qu’il y a alors à analyser dans le détail la façon dont le travail de production s’organise ou dont la transmission des données s’opère si l’on veut comprendre en quoi consistent précisément ces données. Là aussi pourriez-vous expliciter ce point ? 

L’enjeu principal, il me semble, une fois que l’on admet que les données sont toujours des « obtenues » comme le disait Bruno Latour lorsqu’il observait le travail quotidien des scientifiques, c’est de comprendre dans quelles conditions elles deviennent malgré tout des « données » pour certains. Cela se joue en particulier dans les conditions de leur mise en circulation et dans les transactions par lesquelles elle passe. S’il est important d’interroger la part productive de chaque opération de mise en circulation, il est aussi utile de chercher à comprendre la transaction elle-même. Si l’on insiste pour obtenir des données brutes par exemple, c’est-à-dire des données censées ne pas avoir été « travaillées », tout en exigeant qu’elles soient de bonne qualité et « machine-readable », à qui fait-on payer les coûts ? Qui va nettoyer les données, les compléter, les corriger, les reformater ? Nous avons montré avec Samuel Goëta que pour obtenir des données « brutes » qui  soient utilisables par le plus grand nombre, ce travail était inévitable. Par ailleurs, dans certains cas, il se traduit par des transformations organisationnelles dont on mesure encore mal les effets. Qu’est-ce que négliger l’importance de ce travail implique sur la qualité de ces données ? Sur la maîtrise que l’on peut avoir des postulats sur lesquels elles reposent, sur les ajustements qu’a nécessités leur partage, leur circulation ? Ce sont des questions qui sont très sensibles dans le domaine du Building Information Modeling (BIM) par exemple, un programme d’échange généralisé de données dans les métiers du bâtiment dont la mise en œuvre concrète engage des coûts cachés parfois considérables. Mettre les données des uns et des autres en commun suppose en effet que tout le monde partage des définitions précises de ce que sont un mur, une marche d’escalier, une ouverture, etc. Ça n’est bien entendu pas le cas. Et s’il est particulièrement délicat de partager des données « métiers » qui ne sont pas intelligibles par tous, il est encore plus difficile et discutable d’exiger que tout le monde utilise les mêmes formats et surtout se réfèrent aux mêmes objets en faisant fi de l’utilité des idiosyncrasies pour chaque profession. 

Étudier cette dimension transactionnelle des données permet de mettre en lumière l’économie morale du travail informationnel sur laquelle elles reposent, qui distingue plus ou moins explicitement sale boulot (nettoyage, formatage, par exemple) et tâches plus valorisées (combinaison, traitement statistique, analyse…). C’est dans ce double sens que ce programme de recherche a pour ambition de mieux comprendre en quoi consistent les données elles-mêmes : à la fois parce que celles-ci sont produites dans certaines conditions, qui peuvent varier, mais aussi parce que se joue dans leur circulation des définitions croisées de ce qui compte comme données et de ce qui compte comme travail.

 

Pourriez-vous illustrer, plus généralement, les domaines d’application d’un tel programme de recherche ? Quels sont les terrains sur lesquels vous-même ou d’autres pourriez chercher à le mettre en œuvre ?

Il y en a beaucoup, puisque les données sont désormais censées être partout. On peut en identifier quelques-uns qui sont sans doute aujourd’hui plus stratégiques, à la fois scientifiquement et politiquement.

Les initiatives de production citoyenne des données en font partie. On voit en effet émerger de nombreuses situations dans lesquelles des personnes dont ça n’est pas le métier s’équipent pour générer elles-mêmes des données alternatives aux données officielles. Ces actions sont dans la lignée de ce que l’on peut observer depuis très longtemps du côté des sciences citoyennes et représentent en quelque sorte un prolongement du statactivisme qu’a étudié Emmanuel Didier. Ces initiatives sont passionnantes parce qu’elles reposent généralement sur une reconnaissance explicite du travail des données, qu’elles font entrer en politique, en amont de la question des traitements et des calculs. Certaines sont aussi particulièrement intéressantes parce qu’elles organisent autour de ce travail la coordination d’acteurs qui n’avaient pas pour habitude de travailler de concert. C’est par exemple ce que font les membres d’OpenStreetMap en s’associant à des institutions publiques ou à des ONG pour produire des données géographiques inédites.

Une autre piste, plus touffue encore, est celle des domaines où l’automatisation est présentée comme la condition sine qua non de la qualité et de l’efficacité des données. D’innombrables entreprises, au premier rang desquelles celles que l’on rassemble un peu vite sous l’acronyme GAFA, misent aujourd’hui sur les algorithmes et les technologies de l’intelligence artificielle pour fournir des services innovants à leurs clients. Or, comme Lilly Irani ou Sarah Roberts l’ont montré, ces entreprises reposent sur des travailleuses et des travailleurs de la donnée aux tâches morcelées, mécanisées et très largement dépréciées. 

Enfin, au-delà des seules configurations de la fabrique et de la circulation des données, il me semble crucial d’aller voir ce qui se passe du côté de leur maintenance et des modalités de production de leur pérennité. C’est un pan de plus en plus important du travail des données, mais qui reste largement méconnu. Comment ce travail s’organise-t-il ? Quelles relations se nouent entre les métiers historiques de la documentation et de l’archive et les nouveaux acteurs de la donnée ? Que se joue-t-il dans ces activités du point de vue de la définition des données, de leur qualité, de leur consistance même ? Autant de questions qui me semblent essentielles pour mieux comprendre ce qui caractérise cette époque que l’on présente un peu vite comme celle de la révolution des données.

 

Dans quelle mesure (vous l'évoquez en conclusion de votre ouvrage) ces travaux pourraient-ils permettre d’éclairer les développements futurs et éventuellement alternatifs que pourrait prendre l’utilisation des données dans un avenir proche ou lointain ?

Les domaines que je viens d’évoquer présentent un premier élément de réponse à cette question. Il y a un enjeu par exemple à suivre de près les développements des services présentés comme automatiques et autonomes et à les réinscrire dans une histoire de la mécanisation de l’information dans les entreprises et les administrations. Delphine Gardey a étudié la naissance de l’obsession pour les données dans les administrations et dans les entreprises et montré qu’elle s’était appuyée sur de vastes programmes d’automatisation qui ont déqualifié le travail informationnel au tournant du XXe siècle, déqualification qui a fait émerger un pan entier d’emplois féminisés aux conditions particulièrement difficiles. Aujourd’hui, on trouve des pendants de ces programmes aussi bien dans les entreprises traditionnelles que du côté des secteurs numériques qui prétendent produire du service, et donc de la valeur, en automatisant complètement la récolte et le traitement des données. Même s’ils sont indéniablement « nouveaux » à plus d’un titre, ces services semblent participer d’un mouvement de back-offisation du monde inauguré dès la fin du XIXe siècle, qui conditionne la qualité de service à la dévalorisation et au masquage du travail des données.

Mais le programme de recherche que je défends dans le livre repose sur des enquêtes situées, au plus près des activités de travail. Il ne vise donc pas à produire un diagnostic général sur l’état de la société contemporaine, et encore moins des scénarios pour le futur. Il fonctionne plutôt comme une piqûre de rappel et invite à rester attentif à la place qui est faite au travail des données dans les secteurs les plus variés possible : interroger les prétentions à le nier ou à le dévaloriser, aussi bien que repérer les situations dans lesquelles ce travail est au contraire mis en avant et reconnu comme un composant à part entière des données elles-mêmes. Nourrir cette préoccupation permet notamment d’éviter toute tentation fonctionnaliste, qui ferait de l’effacement du travail le passage obligé de la circulation de données efficaces et une évolution inévitable