De l'influence des acacias sur les accidents de la route: une «étude à la con» nous explique les «études à la con»

Le cycle de raisonnement derrière les études nomothétiques, tel que l'expose l'étude - voir l'image dans son contexte

Le cycle de raisonnement derrière les études nomothétiques, tel que l'expose l'étude - voir l'image dans son contexte

Vous avez plus de chance de mourir dans un accident de la route quand il y a des acaciasCette corrélation irréfutable nous est présentée par une étude conjointe de l’institut Max Planck en psycholinguistique de Nimègue et l’université d’Edimbourg.

Ce genre de rapprochements entre des statistiques qui n’ont apparemment aucun rapport est devenu très populaire dernièrement, à tel point qu'on les taxe souvent d'«études à la con»: cette étude-là vise à nous expliquer pourquoi. En gros, tout est une affaire de chiffres –et de la façon dont on s’en sert.

Ne serait-ce qu’ici même sur Slate.fr, vous avez pu entendre parler des rapports épatants entre le PIB et la taille du pénis, ou entre les noms de famille et la qualité du poste au travail. Ces travaux basés sur des croisements de statistiques, qui sont ici réunis sous le nom d'«études nomothétiques», sont devenus «rapides et faciles à réaliser» grâce à l’abondance récente de données sur lesquelles s’appuyer, en particulier dans le domaine de la linguistique.

Depuis que nous disposons d’échantillons toujours plus grands, sur des aspects aussi divers que la consommation de chocolat ou la couleur des uniformes, tout peut être rapproché avec tout. Et c’est exactement ce que les chercheurs ont fait ici, pour souligner l’absurdité à laquelle peut conduire le procédé lorsqu’il est mal exploité:

«La diversité linguistique est liée au climat. Le climat affecte la probabilité des siestes dans une culture. Les cultures où on fait la sieste ont tendance à avoir des langages à la morphologie moins complexe (...). La complexité morphologique est liée à la taille du groupe.»

Et ainsi de suite, de données en données, l’étude en arrive à cette conclusion, loufoque mais mathématiquement vraie:

«Pour boucler la boucle, la présence d’Acacia nilotica prédit également un plus grand nombre d’accidents mortels sur la route, compte tenu de la diversité linguistique, l’étendue du réseau routier, le PIB, la distance depuis l’équateur, la largeur et la densité de population.»

La jungle des corrélations (cliquez sur l'image pour la voir dans le contexte de l'étude)

Comme le rappelle Joshua Keating sur Slate.com, le problème ici ne vient pas forcément des études nomothétiques en elles-mêmes. Certes, la corrélation n’entraîne pas la causalité, mais elle permet souvent de s’en rapprocher, et fournit un outil précieux aux scientifiques pour former leurs hypothèses. Le souci, en fin de compte, viendrait surtout des médias qui ont un peu trop tendance à l’ignorer, et à donner aux études nomothétiques l'apparence... d'études à la con:

«En général, et sans parler des gros titres “attrape-clics”, j’espère bien que la plupart des lecteurs ne prennent pas tant aux sérieux [ce] genre de trouvailles. Les découvertes de corrélations de ce type sont supposées soulever des questions plutôt que d’y répondre».

Une remarque qui tombe sous le sens: en juillet dernier, Slate.fr avait déjà évoqué ce genre de mauvaise interprétation en discutant avec Baptiste Coulmont, l’auteur d’une étude débattue un peu partout à l’époque: la corrélation entre les mentions du bac et les prénoms des candidats. De nombreux lecteurs avaient alors hâtivement déduit une causalité de cette corrélation (quand les journalistes ne l’avaient pas fait pour eux), et en avaient conclu que le prénom que l’on portait influencait le résultat au bac. Ce qui n’a guère plus de sens que cette vieille plaisanterie de Coluche:

«Quand on est malade, il ne faut surtout pas aller à l'hôpital: la probabilité de mourir dans un lit d'hôpital est 10 fois plus grande que dans son lit à la maison.»