Un livre riche et informatif qui met en évidence la révolution silencieuse que constituent, dans des domaines chaque jour plus nombreux, les méthodes modernes d'analyse des données.

Quelle relation y a-t-il entre la prévision de la qualité d'un millésime viticole, le diagnostic médical, l'écriture de scénarios de films à succès, la fidélisation des clients d'une compagnie aérienne, et la lutte contre les discriminations raciales ? Ce sont, d'après ce livre, quelques uns des nombreux domaines qui ont été ou sont en train d'être transformés radicalement par les méthodes modernes d'analyse statistique et de traitement des données.

 

L'auteur, Ian Ayres, est un représentant éminent d'une catégorie peu connue en France : c'est un juriste-statisticien. Professeur de droit et de gestion à l'Université de Yale, il travaille à l'interface du droit et de l'économétrie. Il est bien connu entre autres pour avoir mis en évidence dès les années 80, grâce à des analyses statistiques, un vaste phénomène de discrimination dans les ventes de voitures aux Etats-Unis : les femmes et les noirs se voyaient appliquer des tarifs supérieurs aux hommes blancs.

 

Plus récemment, il s'est spécialisé dans l'utilisation de l'analyse de données pour mettre en évidence des phénomènes du même type, analysant par exemple des millions de ventes de voitures pour montrer que les crédits proposés aux acheteurs noirs étaient généralement plus coûteux. Ces travaux ont eu des conséquences judiciaires (puis sociales) importantes à travers des « class actions » menées par des acheteurs victimes de discriminations parfois inconscientes.

 

Ayres montre dans ce livre comment les méthodes statistiques qu'il utilise se répandent à grande vitesse à travers les secteurs les plus divers de l'économie et de la société. Apparues d'abord dans le domaine biomédical, elles ont été adoptées par d'autres branches de la recherche, y compris en sciences sociales, puis, irrésistiblement, par de multiples domaines de l'économie et de la société. L'auteur décrit avec beaucoup de détails, d'abord étonnants mais finalement généralement convaincants, une série d'activités qui traversent une révolution du fait de ces nouvelles méthodes. Elles vont du marketing et de la tarification des billets d'avions jusqu'à la mise au point de politiques de développement économique et à la prévision du succès commercial des scénarios de films. Et d'autres sont probablement sur le point de connaître la même évolution, y compris des activités aussi importantes socialement et économiquement que le diagnostic médical.

 

Les causes d'une révolution

Le développement de l'analyse des données se fonde sur deux outils conceptuels anciens, et sur deux révolutions technologiques. Les outils conceptuels sont la régression statistique et le test en double aveugle.

 

La régression statistique est une méthode mathématique simple mais puissante qui permet d'identifier et de quantifier des relations de corrélation entres des quantités mesurées. Bien utilisée, elle permet de dire si deux quantités sont liées – au sens où les variations de l'une sont généralement associées à des variations de l'autre – mais aussi de quantifier l'importance du lien. Elle permet aussi parfois de séparer, parmi différents facteurs possibles, ceux qui ont un rôle explicatif plus ou moins important dans un phénomène mesuré.

 

Le test en double aveugle est plus récent. La régression statistique a ses limites : quand plusieurs facteurs explicatifs possibles sont fortement liés entre eux, il est difficile d'identifier lesquels sont réellement déterminants. Dans un test en double aveugle, on constitue deux populations statistiquement identiques, en faisant varier un seul paramètre – par exemple la prise d'un médicament dans l'une des populations, d'un placebo dans l'autre – sans même que les participants, ou les expérimentateurs, sachent qui appartient à quelle population. Les résultats permettent d'affirmer, avec un degré de certitude quantifiable qui dépend de la taille de l'échantillon, si le paramètre choisi a une influence ou non sur l'issue du test. Alors qu'elles se sont développés à l'origine surtout dans le domaine médical, Ayres décrit bien comment ces études « randomisées » se sont répandues dans les sciences économiques et sociales, au point qu'il est devenu presque systématique, aux Etats-Unis, de les utiliser pour vérifier l'efficacité de nouvelles mesures économiques, par exemple pour la lutte contre le chômage ou la pauvreté.

 

La première révolution technologique est l'apparition de bases de données gigantesques. Il est aujourd'hui facile et relativement peux coûteux de manipuler des téraoctets   , voire des pétaoctets   de données. Or un téraoctet représente des dizaine de millions de pages de texte ou de chiffres. A titre d'exemple, il est parfaitement possible aujourd'hui pour une chaîne de magasins d'obtenir (à l'aide de cartes de fidélisation à code barre) puis de stocker l'ensemble des données relatives aux visites de chaque client, puis de les analyser, que ce soit pour prévoir leurs achats futurs et gérer au mieux leurs stocks ou pour préparer des offres promotionnelles ciblées.

 

La seconde révolution est l'internet, qui permet non seulement d'obtenir des masses colossales d'informations, mais aussi de faire des essais randomisés en temps réels. Il est maintenant courant qu'une entreprise qui vend sur internet propose aléatoirement à ses visiteurs plusieurs pages web, qui diffèrent par exemple par les polices de caractères, les couleurs ou les illustrations utilisées, pour les adapter en privilégiant celles qui maximisent les ventes. L'auteur explique comment il a choisi le titre et le sous-titre de son ouvrage de cette manière grâce à Google Adds, en choisissant parmi plusieurs possibilités celle qui attirait le plus de visiteurs.

Des leçons intéressantes

Ces évolutions techniques et conceptuelles ont des répercussions profondes. L'une est une relative limitation de l'autorité des experts, et leur constante remise en cause. Dans les domaines où des « expériences » peuvent être menées rapidement et à moindre coût, les affirmations de spécialistes « reconnus » peuvent constamment être remises en cause par des outsiders inexpérimentés, qui peuvent maintenant prouver qu'ils ont raison (si c'est le cas). Ayres en donne de nombreux exemples, allant de la prédiction de la qualité des millésimes à celle de la réussite commerciale de scénarios de films.

 

Parallèlement, un phénomène général émerge, presque universel et bien documenté : les experts humains ont une capacité limitée à traiter des phénomènes où interviennent plus d'une demi-douzaine de paramètres, leurs prédictions sont facilement améliorées par des programmes informatiques simples. Le livre décrit une série impressionnante d'activités où ce phénomène se produit. Pour des activités véritablement complexes, comme le diagnostic de maladies rares, l'ordinateur, qui peut accéder à des bases de données décrivant des millions de cas, a un avantage décisif sur le médecin qui n'a pu rencontrer qu'une petite fraction des milliers de pathologies possibles.

 

Un autre phénomène frappant, bien documenté aussi, est la tendance générale des experts humains à surévaluer leurs propres capacités d'analyse.

 

L'auteur ne prédit pourtant pas la disparition des experts humains et leur remplacement par des programmes informatiques. Mais bien l'apparition d'une nouvelle catégorie d'experts, qui seront mieux à même d'utiliser de vastes bases de données et des outils statistiques élaborés pour appuyer leurs propres capacités d'analyse et pour fonder et vérifier leurs intuitions. Pour la médecine, il n'est pas question de disparition du médecin, mais peut-être d'une évolution de son activité, plus centrée sur l'observation du patient et sur la description de ses symptômes, le diagnostic et le traitement étant ensuite suggérés par un ordinateur. Le « Dr House » moderne existe – ou est sur le point d'exister – mais c'est un ordinateur...

 

Quelles conséquences en tirer ?

 
Le contenu de ce livre conduit, si on l'accepte, à des conséquences profondes. Sur l'enseignement d'abord, en particulier l'enseignement supérieur. Le développement d'internet tend à dévaloriser les connaissances – l'information est maintenant immédiatement accessible – au profit des compétences. Mais l'utilisation de vastes bases de données et d'outils statistiques nécessite une gamme de compétences mathématiques élémentaires. Ceux qui devront participer à la mise au point de ces outils, ou qui voudront garder un recul critique et pouvoir les analyser, devront maîtriser des outils conceptuels autrement plus élaborés.

 

Ce livre laissera peu de lecteurs indifférents. Certains le trouveront passionnant et enthousiasmant, d'autres profondément irritant, superficiel et trop prévisible, déterministe, voire réductionniste. Mais la réalité qu'il décrit mérite d'être connue et comprise, et ses analyses d'être prises au sérieux, que ce soit pour les accepter ou pour les réfuter