Life

Statistiques: trop belles pour être vraies

Slate.com, mis à jour le 15.08.2013 à 12 h 47

Attention aux statistiques imparables des études économiques, scientifiques, sociales, politiques... Elles sont souvent absurdes. Non, les femmes ne portent pas plus de vêtements rouges à leur pic de fécondité et les hommes ayant des bras musclés ne sont pas plus âpres au gain.

La chanteuse Rihanna en robe rouge.REUTERS/Mario Anzuoni

La chanteuse Rihanna en robe rouge.REUTERS/Mario Anzuoni

Les femmes sont-elles trois fois plus susceptibles de porter des vêtements rouges ou roses lorsqu'elles atteignent leur pic de fécondité? Probablement pas. Et pourtant, des chercheurs consciencieux, des revues scientifiques prestigieuses et des journalistes crédules sont tombé dans le panneau. Voici comment.

L'article dont je vais vous parler a été mis en ligne il y a peu sur le site de Psychological Science, revue phare de l'Association for Psychological Science. Cette dernière représente le versant sérieux (focalisé sur la recherche scientifique) de la psychologie (par opposition à la psychologie clinique).

Nos cerveaux cherchent des tendances là où il n'y en a pas

L'étude («Les femmes sont plus susceptibles de porter des vêtements rouges ou roses pendant leur pic de fécondité») est cosignée Alec Beall et Jessica Tracy. Elle est basée sur deux échantillons féminins. D'une part, un échantillon auto-sélectionné de cent internautes; d'autre part, un ensemble de vingt-quatre étudiantes (de l'Université de la Colombie-Britannique). Voici les conclusions: «Nous nous sommes basés sur les éléments prouvant que les hommes éprouvent de l'attirance sexuelle pour les femmes portant des vêtements - ou étant entourées - de couleur rouge. Nous avons organisé des tests visant à déterminer si les femmes sont plus susceptibles de porter des vêtements de couleur rouge lorsqu'elles atteignent un pic de fécondité (…). Lorsque leur probabilité de tomber enceinte était élevée, les participantes étaient (plus de) trois fois plus susceptibles de porter un haut de vêtement rouge ou rose. (…) Nos résultats tendent donc à indiquer que les vêtements rouges et roses sont souvent associés à la fécondité féminine; et qu'un processus que l'on a longtemps cru caché - l'ovulation - est associé à un signal visuel des plus perceptibles.»

Plutôt passionnant, non? Une révélation à la fois sexy (littéralement parlant) et statistiquement significative. Du simple au triple! Voilà qui a l'air sacrément important.

Seulement, voilà: cet article ne fournit aucun élément permettant de prouver les conclusions des auteurs, et ce pour quatre raisons (trois mineures, une déterminante).

Soulignons tout d'abord quelques problèmes inhérents à cette fameuse étude:

1. Représentativité. La couleur de vos vêtements dépend souvent de votre lieu de vie et de vos fréquentations. Or les internautes ayant répondu au questionnaire en ligne et les étudiantes de l'Université de la Colombie-Britannique ne représentent guère plus… que les internautes susceptibles de répondre à des questionnaires en ligne et que les étudiantes de l'Université de la Colombie-Britannique.

2. Evaluation. Les chercheurs ont demandé aux participantes d'indiquer la date de leur dernier cycle menstruel. Il n'est pas dit que toutes les participantes s'en soient souvenues avec exactitude. Les chercheurs leur ont certes demandé de répondre avec certitude, mais les personnes interrogées ont tendance à surestimer leur sentiment de certitude. 

3. Biais. Pour les auteurs, le groupe «risques de grossesse élevés» comprend les femmes dont les règles ont débuté entre 6 et 14 jours plus tôt. Ces chiffres ont éveillé ma suspicion. (Je connais bien les étapes du cycle de la fécondité: mon épouse et moi-même avons fait un enfant à plus de quarante ans). Selon le site womenshealth.gov, c'est entre le 10ème et le 17ème jour d'un cycle menstruel de 28 jours que la fécondité est la plus élevée; entre le 12ème et le 17ème pour Babycenter.com. J'ai consulté les références de l'article de Beall et Tracy; il semble qu'ils se soient basés sur une étude de Penton-Voak et Perrett publiée en 2000, qui renvoie elle-même à un article de Regan (datant de 1996). On peut y lire que le 14ème jour est la meilleure estimation du moment de l'ovulation. Selon Regan, «le paroxysme du désir sexuel est atteint» le 8ème jour. A mon avis -mais ce n'est qu'une supposition- Penton-Voak et Perrett ont mal interprété l'étude de Regan; quant à Beall et Tracy, ils ont simplement emboîté le pas de Penton-Voak et Perrett.

4. Les «degrés de liberté du chercheur». C'est véritablement là que le bât blesse; c'est ce qui a permis aux chercheurs de débusquer des tendances -probablement- imaginaires. Le terme a été employé par le psychologue Uri Somonsohn; il désigne la capacité des chercheurs à examiner les multiples aspects de leurs données afin d'identifier des éléments statistiquement significatifs. Cela ne veut pas dire que les scientifiques manquent d'honnêteté; ils peuvent chercher à dégager des tendances au cœur des données et ce en toute sincérité. `

Mais nos cerveaux sont ainsi faits que nous voulons -et que nous parvenons- à repérer des tendances là où il n'y en a aucune. Dans ce cas précis, les chercheurs ont posé cette question aux participantes: «Quelle est la couleur du haut de vêtement que vous portez aujourd'hui?». Mais ils ne parlent pas des participantes qui portaient une robe, et ne nous disent pas s'ils ont posé des questions sur la couleur de leurs autre vêtements. Ils ont donné neuf choix de couleur, puis ont combiné le rouge et le rose pour en faire une seule et même catégorie. Ils auraient facilement pu les considérer comme deux couleurs différentes, et auraient évidemment pu opter pour d'autres possibilités (réunir toutes les couleurs sombres pour tenter de détecter une tendance négative, par exemple). Ils affirment que les autres couleurs n'ont pas mis en évidence d'autres différences statistiquement significatives -mais ces différences auraient justement pu être notables. Les chercheurs ont comparé leurs données; ils auraient pu relever bien d'autres tendances significatives. Ils ont choisi les périodes jour zéro-jour 5 et jour 15-jour 28 comme points de comparaison quant au pic de fécondité présumé. Ces choix comportent plus d'un degré de liberté. Ils ont mis de côté des participantes qui auraient pu figurer dans l'étude, et vice-versa. Et ils ont choisi d'en exclure d'autres après leur avoir posé une question visant à évaluer leur degré de certitude.

Le fruit du hasard

Je viens de mentionner une longe liste de détails -mais d'une certaine manière, tout ici est affaire de détails. Les études de ce type trompent leur monde en réduisant leur postulat à une formule choc: lorsqu'elles sont fertiles, les femmes sont trois fois plus susceptibles de porter du rouge! Mais lorsqu'on y regarde d'un peu plus près, on se rend compte qu'un -très- grand nombre de comparaisons réalisées par les chercheurs auraient également pu faire l'objet d'articles, accompagnés d'une explication scientifique apparemment plausible, si elles avaient été considérées comme statistiquement significatives dans les données récoltées.

Dans le monde de la recherche, la norme veut qu'un résultat soit considéré comme «statistiquement significatif» si sa valeur-p est inférieure à 0,05. Autrement dit, s'il y a moins d'une chance sur vingt pour que la tendance observée dans les données puisse être le fruit du hasard. Ceci dit, si vous établissez vingt comparaisons différentes ou plus (parfois implicitement, via l'inclusion ou l'exclusion de certaines données ou encore via la mise en place de seuils limites) certaines d'entre elles peuvent atteindre cette fameuse valeur-p; et cela n'a rien de surprenant.

Les conclusions fracassantes de l'étude -les participantes étaient trois fois plus susceptibles de porter du rouge ou du rose pendant leur pic de fécondité- ont été constatées sur deux échantillons. Impressionnant -à première vue. En réalité, il n'y a pas de quoi en faire un plat. Rien de plus normal, à vrai dire, lorsque les chercheurs disposent d'un ensemble restreint de données  et qu'ils peuvent manipuler ces informations à loisir. Et ne parlons pas du fait qu'ils ne peuvent soumettre leurs résultats aux revues scientifiques sans avoir débusqué de tendances particulièrement intéressantes (effet de sélection supplémentaire).

Des études menées comme des parties de pêche

En se focalisant sur cet exemple -littéralement- haut en couleur, je ne cherche pas à tout mettre sur le dos de cette équipe de chercheurs. Ils n'ont malheureusement fait qu'adopter les pratiques standards de la recherche expérimentale. Cet article a été publié dans une revue de premier plan -ce qui prouve que les méthodes statistiques des chercheurs ont été jugées satisfaisantes par les responsables de la rédaction. Certes, les manuels de statistique mettent les étudiants en garde contre les comparaisons multiples -mais les chercheurs ont tendance à étudier chaque comparaison de manière indépendante, sans les considérer comme les parties d'un ensemble de réponses (potentiellement pertinentes) à une question de recherche. A partir de là, il n'est guère surprenant de voir de sympathiques rédacteurs en chef de revues scientifiques publier des études saisissantes: s'ils les remettaient en cause en invoquant ces «points de détail», ils pourraient se voir qualifier de pinailleur. Dans cette chaîne qu'est la recherche, chaque maillon prend une décision, et chacune de ces décisions semble scientifiquement raisonnable. Le résultat? Une machine à produire et à promouvoir des tendances aléatoires.

De ce simple exemple découle une leçon importante pour le monde de la statistique: tant que les études seront menées comme des parties de pêche à la tendance (ayant pour seul but de mettre en valeur toute comparaison peu ou prou statistiquement significative), nous verrons de plus en plus de révélations choc basées sur des schémas de données ne représentant aucune tendance réelle. Précisons de nouveau que cette chasse à la tendance peut être menée de manière implicite, sans que les chercheurs ne se rendent compte que leurs décisions les mènent à une surinterprétation de certaines tendances au cœur de leurs données.

Il faut savoir que ces pratiques sont monnaie courante. Prenons l'exemple d'une étude parue dans la revue Psychological Science (datée de juillet 2013). On y apprend qu'il existe un lien entre la force des membres supérieurs masculins et l'attitude des hommes face à la redistribution économique. Les auteurs: «Nous avons montré que chez l'homme adulte contemporain, la force des membres supérieurs influence la propension à négocier dans leur propre intérêt quant à la redistribution des revenus et des richesses. Ces effets ont été reproduits parmi plusieurs communautés culturelles, et, comme nous y attendions, ils n'ont été observés que chez les hommes». En réalité, deux de leurs études (sur trois au total) ont été menées sur des étudiants. Et les auteurs n'ont pas évalué la force physique des participants; ils se sont contentés de relever la circonférence de leurs bras. Des informations indirectes, obtenues auprès d'étudiants: c'est là une vieille tradition dans la recherche. Soit. Mais si cette pratique est acceptable, pourquoi ne pas agir en toute transparence? Au lieu d'écrire «force des membres supérieurs» et «hommes», soyez honnête, dîtes «circonférence des bras» et «étudiants». Chercheurs, assumez vos choix!

Mais revenons-en à notre argument central. Ces chercheurs disposaient d'assez de «degrés de liberté» pour trouver toute sorte d'épingles dans la botte de foin de leurs données. De toute évidence, les auteurs ont rapporté une interaction statistiquement significative n'ayant aucun effet principal statistiquement significatif. Autrement dit, ils n'ont pas constaté que les hommes dotés de bras plus imposants étaient plus conservateurs quant à la redistribution économique. Ils ont simplement remarqué que la corrélation entre la circonférence des bras et l'opposition à la redistribution des richesses était plus importante parmi les hommes jouissant d'un statut socio-économique élevé. Ceci dit, là encore, s'ils avaient détecté l'effet principal (d'un côté comme de l'autre) je suis certain qu'ils auraient pu imaginer une belle explication. Et s'ils n'avaient trouvé ni effet principal, ni interaction, rien ne les aurait empêché de chercher d'autres interactions. Pourquoi ne pas comparer les étudiants ayant des frères et des sœurs plus âgées aux autres? Peut-être les corrélations auraient-elles alors différé…

Des statistiques qui ne correspondent à aucun phénomène

Rien d'étonnant à ce que les chercheurs décident d'analyser ce type de variables, bien au contraire -mais ces décisions mettent en lumière la difficulté de considérer ces «valeurs-p» comme des garanties en soi. Rien n'indique que ces chercheurs ont agi avec malveillance, ou qu'ils aient cherché à manipuler les faits. Tels des sculpteurs, ils taillent leurs données, chassant les copeaux d'information qui ne correspondent pas à leur postulat de départ, jusqu'à ce qu'ils aboutissent à une structure harmonieuse et statistiquement significative -structure venant confirmer leur vision de la réalité.

A ce stade de l'argumentaire, vous vous dites peut-être que je me montre un peu trop tatillon. Certes, ces chercheurs ont décidé d'orienter leurs études dans une certaine direction. Mais est-il seulement possible de produire une étude digne d'être publiée à partir d'une simple orientation de départ, en l'absence de tout effet  véritable?

La réponse est oui. Ce phénomène a été prouvé; on en dénombre même quelques exemples ces dernières années. Des scientifiques ont démontré que lorsque les chercheurs disposent d'assez de degrés de liberté, ils peuvent aboutir à des résultats statistiques dignes d'être publiés, et ce même lorsqu'ils ne correspondent à aucun phénomène véritable. Deux exemples.

Le premier est un cas regrettable: le scientifique a agi par inadvertance. Il y a deux ans, Daryl Bem, chercheur émérite en psychologie à l'université de Cornell, a fait les gros titres; il venait de publier un article -dans une revue de premier plan, Personality and Social Psychology - prétendant avoir découvert l'existence de perceptions extra-sensorielles (ou PES). L'étude comportait neuf expériences différentes et de nombreux résultats significatifs. Malheureusement (ou heureusement, pour ceux qui craignent de voir la NSA lire dans les pensées aussi facilement que dans nos boîtes mails) ces expériences comportaient de nombreux degrés de liberté, qui ont permis à Bem de manipuler ses données jusqu'à ce qu'il déniche ce qu'il désirait découvrir.

«Déceler des relations là où il n'y en a aucune»

Pour sa première expérience, il a soumis plusieurs images à cent étudiants. Il a fait état d'un résultat statistiquement significatif pour les images à caractère érotique, sans relever le moindre résultat pour les images non-érotiques. Mais songez un instant au nombre d'autres comparaisons possibles! Si les sujets avaient identifié toutes les images à une fréquence considérablement supérieure à la moyenne, l'auteur l'aurait sans doute rapporté. Et si les résultats avaient été plus élevés face aux images non érotiques, il aurait alors pu arguer que les images à caractère érotique avaient perturbé la concentration des sujets -et que les images non érotiques étaient les seules à pouvoir offrir une bonne évaluation du phénomène. Et si les participants avaient obtenu de meilleurs résultats pendant la seconde partie du test que pendant la première (statistiquement parlant)? Le chercheur aurait alors pu affirmer qu'il fallait y voir un phénomène d'apprentissage. Et si les résultats avaient été meilleurs pendant la première partie? C'était la preuve d'un effet de fatigue. Darl Bem: «Il n'y avait aucune différence significative entre les sexes dans l'expérience en question». S'il avait constaté une différence (une meilleure performance masculine face aux images érotiques et meilleure performance féminine face aux images romantiques mais non-érotiques, par exemple), il aurait certainement présenté ces données comme des éléments de preuve particulièrement convaincants. Et ainsi de suite.

De nombreuses personnes veulent croire à l'existence des perceptions extra-sensorielles. Avouez que ce serait plutôt génial de pouvoir lire dans les pensées. (Ce serait moins génial si certaines personnes pouvaient lire dans nos pensées sans que nous en soyons nous-mêmes capables -mais je doute que les gens envisagent les choses de cette manière). Par ailleurs, les PES nous semblent si éminemment plausibles -surtout lorsque nous prenons nos désirs pour des réalités. Et si l'être humain, en se concentrant de toutes ses forces, pouvait lire dans les pensées, prédire l'avenir et tout le tralala? Après tout, lorsque je joue au squash, je me dis bien qu'à force de -très- nombreux efforts, je devrais pouvoir être en mesure de gagner à tous les coups. Idée tentante, à un détail près: cette logique vaut également pour mon adversaire…

Au cours des années qui ont suivi l'expérience de Bem, des chercheurs ont essayé de reproduire ses résultats, sans succès. Il est dommage d'avoir gâché autant de ressources pour un projet de ce type; toutefois, cette affaire aura peut-être le mérite d'attirer l'attention sur le problème omniprésent des degrés de liberté du chercheur.

Mon dernier exemple: une exceptionnelle étude réalisée par Craig Bennett et ses collègues, qui ont trouvé des corrélations statistiquement significatives à partir d'un examen d'IRM fonctionnelle d'un saumon mort. Ils ont adopté une méthodologie bien connue, utilisée par nombre de scientifiques dans le cadre d'études se voulant très sérieuses (exemple: «Cerveau rouge, cerveau bleu: les processus évaluatifs différent chez les démocrates et les républicains»). La différence, c'est que Bennett et ses collègues reconnaissent ouvertement que ces analyses d'imagerie médicale comportent des milliers de degrés de liberté. Nous savons tous qu'un poisson mort ne pense pas -et pourtant, en cherchant bien, il est tout de même possible de dénicher des tendances. L'étude du saumon le prouve, et c'est ce qui fait toute sa beauté.

Dans l'une de ses histoires, Thomas Disch -écrivain de science-fiction et grincheux de première - écrit que «la créativité est la capacité à déceler des relations là où il n'y en a aucune». Les scientifiques doivent rester créatifs -mais il faut se méfier d'un système qui permet aux chercheurs de valider leurs intuitions à grand renfort de tendances statistiques, qui sont alors érigées en preuves scientifiques.

Ce n'est pas parce qu'un article est publié dans la revue phare de la principale association des chercheurs en psychologie qu'il faut croire ce qu'il raconte. Le système de publication des études scientifiques encourage par nature la diffusion de conclusions fallacieuses.

Andrew Gelman

Traduit par Jean-Clément Nau

Slate.com
Slate.com (483 articles)
En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour réaliser des statistiques de visites, vous proposer des publicités adaptées à vos centres d’intérêt et nous suivre sur les réseaux sociaux. > Paramétrer > J'accepte