Les modélisations des épidémies ont leur utilité et leurs limites, notamment le faible recours à la comparaison entre différents modèles.

Dans le contexte exceptionnel de la pandémie du SARS-Cov2, les modèles ont fait une entrée fracassante dans le paysage médiatique. Les chercheurs et chercheuses dans ces domaines ont été projetés au-devant de la scène, et ont dû assumer une responsabilité politique à laquelle ils ou elles n’étaient pas habituées. La diffusion de la Covid-19. Que peuvent les modèles ? de Juliette Rouchier et Victorien Barbet, publié aux Éditions Matériologiques, entend apporter à un public non-expert des outils d’analyse des modèles et de leurs résultats. Leur volonté est notamment de mettre en garde contre leur sur- et sous-interprétation puisque « pour ceux qui les créent et les utilisent, ils sont souvent vus comme plus puissants qu’ils ne le méritent ; et inversement pour ceux qui se méfient de cette forme de démonstration, le rejet est souvent total, donc indistinct, ce qui est parfois aussi dommageable qu’une trop grande confiance »   . L’auteur et l’autrice, tous deux économistes, sont spécialisées en simulation agent   , et appliquent dans cet ouvrage leur expertise aux simulations et modèles épidémiologiques de la Covid-19. 

Les enjeux de la modélisation sont en effet de taille puisqu’elle doit produire des prédictions non seulement fiables, mais contenant aussi des informations permettant de développer une action publique. L’auteur et l’autrice mettent en outre l’accent sur la compréhensibilité des modèles par le grand public et prennent alors le parti de se focaliser sur deux jeux de modèles en particulier : l’un tiré d’un article du Washington Post    à visée plutôt explicative et l’autre constitué d’un ensemble d’articles issus d’un laboratoire de modélisation de l’Imperial College de Londres qui fut beaucoup utilisé dans les sphères politiques. L’analyse détaillée de ces modèles permet d’en faire émerger leurs limites et leurs enjeux. 

 

La simplicité au risque de la tautologie    

Qu’est-il exactement permis de conclure de l’article de Harry Stevens du Washington Post, paru le 14 mars 2020 et qui fut tant lu et commenté en raison de ses qualités explicatives ? Cet article met en scène différentes simulations où des pois de couleurs représentent chacun une personne qui se trouve dans l’un des trois états possibles : sain, malade ou guéri. Cette tripartition a donné leur nom à ce type de modèles très utilisés en épidémiologie puisqu’on les appelle SIR pour Susceptible, Infected, Recovered en anglais. Les pois se déplacent au sein d’un cadre selon certaines règles qui déterminent aussi comment les pois changent de couleur (c’est-à-dire s’infectent et guérissent). On « voit » ainsi apparaître la courbe exponentielle des nouvelles infections. Les modèles présentés dans l’article sont commentés et analysés pas à pas, et le lecteur ou la lectrice est mise en garde contre toute sur-interprétation hâtive de leurs résultats. Il s’agit de modèles KISS (keep it simple, stupid !) c’est-à-dire « ultra-stylisés » en ce que les hypothèses qui y sont faites simplifient énormément la réalité. Ce sont donc leurs résultats structurels, indiquant les tendances générales du système, qui sont recherchés.

L’un des modèles de l’article pourrait répondre par la négative à la question : « Était-il bon que les Parisiens et Parisiennes quittent leur ville avant le début du premier confinement ? » Les hypothèses sont toutefois trop fortes pour pouvoir s’appliquer à une situation réelle. En effet, on voit que tous les agents du modèle finissent par tomber malade, y compris ceux qui se trouvent de l’autre côté du « mur » qui symbolise la frontière de la ville. C’est pourtant sans remarquer les hypothèses implicites fortes qui sont faites : qu’il n’y avait aucun cas à l’extérieur de Paris à cette période, ou encore que les Parisiens et Parisiennes ont continué à avoir les mêmes interactions qu’à Paris. L’autrice et l’auteur de conclure qu’« on pourrait dire qu’ici le modèle sort de son spectre de pertinence s’il s’agit pour lui d’aider à penser une politique pour juguler l’épidémie qui nous intéresse »  

Outre ce manque de réalisme qui ne permet pas de conclure en situation réelle, elles reprochent aussi aux modèles de l’article, et même si ceux-ci se complexifient au fur et à mesure qu’il avance, de rester tautologiques. Tautologique est entendu ici au sens où la puissance calculatrice d’un ordinateur n’est pas nécessaire pour prédire le résultat, puisqu’un cerveau humain peut le trouver sans aide. « On reste finalement dans la tautologie, en modèle agents et en épidémiologie : pour réduire la transmission, soit on réduit le risque de transmission entre les agents à chaque contact, soit on réduit les contacts. »   Ce concept de tautologie, souvent repris par le livre, mériterait sûrement d’être développé. En effet, si la conclusion de la simulation « non, les Parisiens et Parisiennes n’auraient pas dû quitter leur ville avant le confinement » peut en effet être anticipée vues les hypothèses de départ, la prédiction de la dynamique générale du système nécessite elle le concours de la puissance de calcul d'une machine. Par exemple la vitesse à laquelle le virus se transmet quand les « portes » de la ville s'ouvrent, ainsi que la répartition des infections dans le temps n’est pas prévisible, et son calcul vient donc apporter une information qui est plus que simplement explicative. D’ailleurs la limite entre ce qui est calculable par un cerveau humain et ce qui nécessite un ordinateur est très floue puisque notamment elle dépend de la personne qui calcule. La compréhension philosophique du concept de tautologie   est relative à l’information contenue dans un énoncé : or, comme aucune information n’est ajoutée au cours du processus de la simulation qui ne soit déjà contenue dans les hypothèses de départ, n’importe quelle simulation serait tautologique dans son ensemble. Le terme de tautologie ne semble donc pas assez discriminant pour soutenir l’argumentaire de Barbet et Rouchier. 

Ceux-ci reprochent in fine à cet aspect tautologique des modèles présentés dans l’article — qui a une visée clairement vulgarisatrice — d’induire en erreur un public non-informé, puisque leurs résultats viennent conforter des préconceptions sans proposer d’éléments nouveaux. Le fait de passer par l'étape, essentiellemet pédagogique, d'une simulation aurait ainsi pour effet malheureux de donner un sentiment de plus grande fiabilité aux conclusions, alors que le livre développe l’idée que ce type de modèles n’a qu’une fonction explicative sans autre valeur ajoutée. 

 

La complexité au risque de l’opacité

Le pendant des modèles KISS sont les modèles KIDS (keep it descriptive, stupid!) justement « très proches de la réalité ». Parmi eux, les modèles dirigés par le modélisateur Neil Ferguson à l’Imperial College de Londres ont beaucoup influencé les décisions publiques, notamment en France mais aussi au Royaume-Uni ou aux États-Unis. Ces modèles prédictifs testent des stratégies d’endiguement de la pandémie de la Covid-19, en essayant de prévoir leurs conséquences sur le nombre d’infections. Ils mettent en jeu une population d’agents artificiels plongés dans un univers aux nombreuses règles. La qualité de ce type de modèles dépend du degré de précision dans la définition des caractéristiques des agents, et « les auteurs cherchent à convaincre de l[eur] pertinence par l[eur] ressemblance, c’est-à-dire de l[eur] adéquation à des données statistiques. »   . L’autrice et l’auteur regrettent pourtant que cette précision extrême ait aussi pour conséquence de les rendre très difficiles à juger sur la façon dont ils sont construits. C’est plutôt en comparant leurs résultats aux données statistiques qu’on pourra convaincre de leur pertinence. 

Ces modèles ont tout de même l’avantage d’être plus facilement interprétables que les modèles probabilistes ou à grandes équations qui sont aussi candidats pour la modélisation de l’épidémie, ce qui les rend opportuns dans le contexte d’une communication science-société. Malgré cela, leurs hypothèses sont (très) nombreuses et peuvent avoir indépendamment un grand impact sur le résultat final. Un oubli peut donc avoir une grande influence sur le résultat. Finalement, l’ouvrage montre comment ces modèles puissants « augmente[nt] l’acceptabilité, par les administrés, des conséquences logiques de ce qu’annonçait le modèle et qui pouvaient être très impopulaires (la décision de confinement) »   . L’auteur et l’autrice reprochent en particulier aux communications scientifiques de ne pas assez recouper les prédictions avec d’autres modèles indépendants de ceux issus de l’Imperial College, de manière à pallier notamment le risque d’hypothèses omises. Cette exigence de recoupement entre modèles est un thème qui revient à plusieurs reprises dans le livre, et concerne les décideurs qui ne comparent pas suffisamment de prédictions indépendantes avant de prendre leurs décisions, même si la critique porte plus généralement sur les acteurs de la communication scientifique. 

La précision des exemples a l’avantage de rendre les remarques de Rouchier et Barbet très compréhensibles pour le lecteur, mais elle fait en même temps que l’ouvrage perde en généralité. Un panorama plus large de modèles KISS puis KIDS aurait pu aider à soutenir la position du livre qui veut être une mise en garde générale envers le traitement des prédictions appliquées à la décision publique. Le cadre de pensée proposé par l’écologue Richard Levins dans son article de 1966 permet justement de placer dans un contexte plus large les deux jeux de modèles critiqués par ce livre. En effet, Levins part de la constatation que différentes caractéristiques sont recherchées lorsqu’on construit un modèle : qu’il soit général, précis et réaliste. Or ces trois caractéristiques ne sont d’après lui pas conciliables, ce qui provoque un nécessaire compromis entre elles. Par exemple, les modèles de l’Imperial College dont nous avons parlé plus haut font partie de ceux qui sont réalistes et précis, ce qui les rend inévitablement très peu généraux. De la même manière ceux du Washington Post sont généraux, précis, et donc très peu réalistes. Ces arbitrages sont des contraintes systématiques et inhérentes à la modélisation ; elles limitent donc les marges de manœuvres des scientifiques et expliquent pourquoi on ne peut pas attendre d’un modèle d’épidémiologie qu’il soit à la fois précis, général et réaliste. 

 

Améliorer les modèles, améliorer leur communication

Quelles stratégies faudrait-il développer pour améliorer la présentation au public non-expert des modèles et de leurs prédictions ? L’auteur et l’autrice proposent d’abord de mieux exposer les hypothèses faites et leurs conséquences. Pour revenir au premier jeu de modèles pris en exemple, il s’agirait d’alerter sur le fait que l’application concrète du résultat d’un modèle éloigné de la réalité est délicate. Certains concepts clefs gagneraient aussi à être mieux définis. Par exemple, le concept d’interaction entre individus est central dans les modèles de propagation du virus, puisque de lui dépend la manière dont le virus se transmet. Une vision d’après Rouchier et Barbet simpliste et purement statistique de ce concept (à savoir « quelle probabilité a-t-on d’infecter une autre personne en la rencontrant ? ») intervient dans les modèles de Ferguson. Les recherches du sociologue Gianluca Manzo sont citées pour venir en appui d’une vision plus complexe et plus juste des réseaux sociaux, avec notamment le concept de « super-spreaders », qui sont les personnes ayant beaucoup plus d’interactions sociales que la moyenne et sont ainsi déterminants dans l’évolution de la courbe de transmission. 

Si la première partie du livre est consacrée à l’analyse des résultats de modèles achevés, les derniers chapitres s’intéressent au contraire aux choix qui jalonnent la construction de modèles, de manière finalement à éclairer d’un nouveau jour leurs résultats. Pour ce faire l’auteur et l’autrice détaillent et justifient chaque étape de quelques modèles qu’ils ont élaborés dans le cadre du site interactif Covprehension « Comprendre l’épidémie actuelle de COVID-19 - Une question, un modèle ». Le principe en est simple : les internautes posent une question sur l’évolution de la pandémie, et les modélisateurs et modélisatrices y répondent par un modèle spécifique en explicitant clairement leur méthode, toujours dans un esprit d’aller-retour avec les personnes non-expertes. Grâce à une explication minutieuse du processus de ces modélisations, le lecteur ou la lectrice en vient à comprendre en quoi « quand un modèle agents permet de faire émerger un phénomène, il n’est pas possible de montrer que c’est le seul modèle qui pouvait le générer »   . Cela a pour implication générale et profonde qu'une prédiction qui va effectivement se révéler juste n’est pas une preuve que le modèle sous-jacent est une représentation valide du système réel. Dit encore autrement, ce n’est pas parce qu’une prédiction est juste qu’il est permis d’inférer qu’on peut faire confiance au modèle. C’est pourquoi un résultat solitaire a une valeur très faible, et seul un processus de recoupement entre plusieurs résultats concordants peut montrer qu’un modèle est robuste.

Cet ouvrage est une invitation bienvenue à resserrer les liens entre production scientifique et public non-expert en se mettant résolument à la portée de tout auditoire, preuve en est le glossaire qui se trouve à la fin du livre. Il propose une voie pour se frayer un chemin entre les différents types de modélisations et insiste sur la nécessité peu honorée de croiser les modèles pour avoir des informations plus robustes avant de prendre une décision politique. En effet, un modèle unique propose des prédictions assez faibles, d’autant que « les résultats ne peuvent pas être plus certains que les hypothèses, qui étaient à ce moment-là très peu certaines »   . Ainsi, seule la comparaison entre des prédictions concordantes issues de plusieurs modèles différents permet d’avoir effectivement une prédiction robuste en laquelle on peut avoir confiance. Le propos tenu est aussi une mise en garde contre la sur-interprétation des résultats des modèles épidémiologiques et l’impression que les décisions politiques sont directement dictées par la science. Alors que justement les résultats non croisés sont sujets à caution, et que les hypothèses faites empêchent de plaquer simplement les résultats sur le système réel.