On craint parfois que le big data et l'apprentissage automatique ne se substituent aux sciences sociales. On voit ici comment celles-ci peuvent au contraire tirer parti de cette moisson de données.

On ne compte plus les numéros spéciaux de revues consacrés au big data et aux sciences sociales. Mais parmi ceux-ci, celui que la Revue française de sociologie y avait consacré au troisième trimestre 2018 reste sans aucun doute l’un des plus remarquables, avec quatre articles, tous d’un grand intérêt, qui montrent quelle utilisation peut être faite de ces données pour approfondir la connaissance de phénomènes sociaux. Deux notes critiques, chacune dans un domaine différent, permettent en outre de se faire une idée plus précise des nombreuses techniques mises en œuvre pour faire parler ces données, tout en pesant leurs avantages et inconvénients. Enfin, de nombreux comptes-rendus d'ouvrages en rapport avec le sujet accompagnent le numéro. 

Le premier article est de Marie Bergström, qui utilise des données obtenues du site de rencontre Meetic.fr pour interroger les préférences des hommes et des femmes en matière d’âge de leur conjoint, dont elle parvient ainsi à montrer qu’il est le produit d’une négociation entre des attentes sexuellement contrastées, qui tourne alors, en moyenne, plutôt à l’avantage du partenaire masculin, ainsi récompensé de ce qu'il assume le plus souvent l'initiative des contacts.

Le deuxième article signé d’Antoine Courmont confronte deux représentations de la réalité s’agissant de la circulation routière, fondées chacune sur des données différentes et ainsi possiblement conflictuelles, soit celle des régulateurs du trafic, d’une part, et celle de l’application Waze, d’autre part, avant de montrer comment celles-ci peuvent être amenées à composer, voire à collaborer.

Le troisième article est de Baptiste Kotras, dont on a pu lire récemment La Voix du web (Seuil, La République des idées, 2019) sur les évolutions de la mesure de l’opinion publique et qui revient ici en détail sur le basculement qui s’est opéré dans le secteur du traitement des données d’opinion en ligne, d'un modèle d’échantillonnage par sélection de sources fiables et influentes à un modèle, au contraire, de veille extensive et continue de la conversation en ligne.

Le dernier article est en anglais, même s’il est signé de deux Français, Julien Boelaert et Etienne Ollion. Il compare sur un exemple, à savoir les déterminants des salaires suédois, les méthodes de machine Learning qui peuvent être utilisées à des fins d’exploration scientifique, avec les méthodes classiques de la statistique « paramétrique », et notamment la régression.

Suivent deux notes critiques. Dans la première, Marta Severo et Robin Lamarche-Perrin comparent les différentes approches d’étude de l’opinion publique à partir des données tirées du réseau Twitter. Et dans la seconde, Jean-Philippe Cointet et Sylvain Parasie font le point sur la façon dont les sociologues ou d’autres spécialistes de sciences sociales traitent aujourd’hui les matériaux textuels à travers tout un ensemble de nouvelles méthodes.