Au printemps 2013, un psychologue de 63 ans vivant à Wurtzbourg, en Allemagne, allait faire une audacieuse suggestion sur une liste de diffusion universitaire. Depuis des mois, des dizaines de ses collègues s'arrachaient les cheveux pour savoir comment contrôler la véracité des articles scientifiques sur «l'amorçage social», soit l'idée voulant que d'infimes détails –la hauteur d'une chaise, la température d'une tasse de café ou encore la couleur d'un mot imprimé sur une feuille– sont susceptibles d'influencer les comportements ou les jugements d'un individu.
À cette époque, les sceptiques avaient besoin de volontaires: qui, parmi les experts de l'amorçage, accepterait de les aider dans leur projet de réplication à grande échelle, consistant à tester certains classiques de la littérature psychologique dans différents laboratoires et au même moment? Y-avait-il seulement quelqu'un pour vouloir soumettre ses recherches à une telle épreuve?
Étude à risque
Les experts en question n'avaient pas trop envie de se mouiller. La période était déjà riche en scandales et en incertitudes: les impostures d'une sommité de la discipline avaient été révélées; des études que l'on pensait plus solides que l'airain –et mêmes des «classiques» du genre– semblaient finalement assez fragiles. Sauf que, pour beaucoup de chercheurs, la rigidité du processus de réplication penchait un peu trop vers l'inquisition et le harcèlement.
Après tout, leurs travaux sur l'amorçage social étaient, par définition, subtils. Ils se fondaient sur d'infimes manipulations expérimentales, précisément calibrées pour susciter de minuscules changements comportementaux. Il suffisait que leurs procédures soient légèrement modifiées, ou que des chercheurs moins chevronnés commettent de légères erreurs, pour que toutes les données partent dans le décor. Donc si un autre laboratoire –ou d'autres laboratoires– essayaient de répliquer leurs études et échouaient, qu'est-ce que cela pouvait bien prouver? Est-ce que quiconque allait changer d'avis scientifique?
Le groupe pataugeait dans une impasse. Selon un article de Nature, relatant le débat, le psychologue et prix Nobel Daniel Kahneman avait tenté de convaincre les spécialistes de l'amorçage. Leur réticence, allait-il écrire en février sur la liste de diffusion, «laisse entendre que les croyants redoutent les résultats».
Un cas exemplaire
Et c'est à la suite de ce message que, le 21 mars, Fritz Strack, le psychologue de Wurtzbourg, envoie le sien. «Ne vous méprenez pas, mais je ne suis pas quelqu'un de très religieux et je suis toujours escagassé quand on nous divise en “croyants” et “non-croyants”». «En science, allait-il ajouter, c'est sur la qualité des arguments et leur examen empirique que devrait reposer le discours». Donc si des sceptiques avaient envie d'examiner –et étaient à la recherche d'une étude témoin, représentative de la psychologie sociale–, ils n'avaient qu'à prendre ses travaux.
Et qu'ils se penchent même sur l'étude la plus célèbre de son corpus –un article littéralement cité en exemple dans les manuels universitaires. Qu'ils vérifient la solidité de ses démonstrations, à savoir que lorsque quelqu'un sourit ou fait la moue, même sans le vouloir, cela modifie son état émotionnel. En 1998, Strack avait effectivement observé que des mouvements du visage provoquaient des mouvements de l'esprit. Il avait prouvé que les émotions ne se contentent pas de suivre une trajectoire d'extériorisation –de l'esprit au monde–, comme l'avait proposé Malcolm Gladwell, mais qu'elles peuvent aussi être intériorisées –du monde à l'esprit.
Voilà, qu'ils s'attellent à répliquer ces résultats.
#PhelpsFace
Cet été, lors des Jeux olympiques de Rio de Janeiro, le champion de natation Michael Phelps est photographié quelques minutes avant une course. Un casque sur les oreilles, la capuche de sa parka remontée, son air renfrogné est des plus clownesques –ses sourcils sont froncés à l'extrême, ses lèvres étirées vers le bas. Tandis que le hashtag #PhelpsFace inonde internet, on se presse de tous côtés pour expliquer son expression. Phelps était-il en train d'activer les réseaux neuronaux adéquats pour se mettre en condition?
Intel insists it knows the secret of Michael Phelps' face - CNET: Technically Incorrect: #PhelpsFace became a meme… https://t.co/WJmlKuu0F5 pic.twitter.com/rQXGDG9SsM
— Osayi George (@ossylishuz) October 14, 2016
Ou peut-être avait-il recours à un «feedback facial» parce qu'il voulait avoir l'air énervé? La contraction de ses muscles faciaux devait activer son amygdale, expliquera un neuroscientifique au magazine Outside, et l'aider à préparer son corps à l'action imminente. Un concept phare du développement personnel depuis des années: Fake it till you make it, simulez jusqu'à ce que ça devienne réalité. Faites semblant et le reste suivra. Froncer les sourcils peut vous mettre la rage. Sourire peut vous rendre heureux, moins stressé.
L'histoire des pouvoirs insoupçonnés des expressions faciales remonte au moins jusqu'à Charles Darwin qui, en 1872, argue qu'une mimique est susceptible de renforcer une émotion. «L'homme qui se laisse aller à des gestes violents augmente sa fureur», écrit-il dans L'expression des émotions chez l'homme et les animaux. En note, il relie cette idée à Louis Pierre Gratiolet, un anatomiste français spécialiste du cerveau, dont la théorie allait un peu plus loin: «En effet, les mouvements et les attitudes du corps, lors même qu'ils résulteraient de certaines causes fortuites, éveillent des sentiments corrélatifs», avance-t-il en 1865. Selon cette interprétation, les gestes et les expressions ne se contentent pas d'orner les émotions, ils peuvent aussi contribuer à les créer.
Et si le sourire agissait directement sur le cerveau pour faire naître des émotions, sans l'entremise de facultés supérieures?
Dans les années 1880, William James pousse le concept dans ses derniers retranchements: les expressions sont des émotions, écrit-il en 1890. Si quelqu'un se met en colère, ce sont les mouvements de son corps qui lui montrent la voie. Si la rage ne se fait pas sentir –si le visage ne rougit pas, si les mâchoires ne se serrent pas, si la respiration ne se fait pas haletante– alors c'est comme si elle n'était jamais survenue. Les émotions n'existent pas tant qu'elles ne se manifestent pas. Phelps sans sa #PhelpsFace ne ressent rien.
Baisser ou augmenter le volume
Au début des années 1960, des psychologues se penchent sur une autre hypothèse. Peut-être que nos émotions sont construites ex post facto, comme pour nous permettre d'expliquer nos propres comportements. Si je remarque que je transpire et que ma peau est chaude, je vais chercher des indices dans mon environnement –où est-ce que je me trouve, qu'est-ce que je fais, qui est en face de moi– et mon esprit va s'appuyer sur ces informations pour déterminer ce que je ressens. De la même manière que j'essaye d'interpréter les états mentaux d'autrui (s'il tremble sur scène, c'est qu'il doit avoir la trouille de parler en public), j'en viens à conjecturer mes propres émotions.

Depuis, les théories sur le feedback facial se sont subtilement fragmentées. Pour certains chercheurs, à la suite de Darwin, notre visage accentue ou atténue des émotions pré-existantes, comme on baisse ou augmente le volume d'une radio. Pour d'autres, les expressions jouent sur la qualité des émotions –leur ton, leur timbre, et même leur description.
En laboratoire, le feedback facial semblait avoir de réels effets. Sauf que personne ne savait très bien comment le système pouvait fonctionner. Est-ce que les gens devinaient simplement ce que leur visage voulait leur dire, via une quelconque action mentale consciente ou inconsciente? Et si le sourire agissait directement sur le cerveau pour faire naître des émotions, sans l'entremise de facultés supérieures?
En 1985, un psychologue social, Robert Zajonc, remet au goût du jour une vieille idée démodée: peut-être que les mouvements du visage jouent sur la circulation sanguine du cerveau. Peut-être qu'en contractant certains muscles pour sourire, on presse des veines d'une manière qui injecte un sang plus frais vers le cortex, ce qui crée du plaisir. Peut-être qu'en fronçant les sourcils, c'est l'inverse.
Zajonc essayera de soumettre sa théorie loufoque à l'épreuve des faits. En laboratoire, il mesure la température frontale de volontaires pendant qu'ils articulent certains sons –[i] et [y]– pour lesquels la position des lèvres est différente. (Avec le [y], le front des participants est plus chaud et leur humeur massacrante). Dans une autre expérience, Zajonc introduit des pailles dans les narines de 20 étudiants et leur souffle un air à différentes températures (selon les participants, c'est l'air le plus frais qui les met en joie).
L'obligation de ruser
C'est à peu près à cette époque que Fritz Strack arrive à l'université de l'Illinois et débute ses recherches. Il n'a pas fondamentalement prévu de travailler sur le feedback facial, mais il a du temps à revendre. Au printemps 1985, lors d'un séminaire, il assiste à une présentation sur le sujet avec un collègue, Leonard Martin. De nombreuses études avaient montré que si vous demandez à quelqu'un de sourire, il vous dira qu'il se sent plus joyeux ou plus heureux, et son corps réagira à l'avenant.
L'effet est faible, mais fiable. Sauf que Strack débusque un loup dans toutes ces études: soit les participants étaient au courant de l'objet de l'expérience, soit ils avaient réussi à le deviner. Et quand un psychologue vous demande de sourire, vous savez à peu près ce que vous devez ressentir.
Le lendemain, Strack et sa femme sont en voiture avec Martin et sa petite-amie. Les deux couples ont prévu de faire la route de Champaign-Urbana jusqu'à la Nouvelle-Orléans, pour assister aux festivités du carnaval. Pendant le trajet, ils passent des heures à discuter de possibles procédures expérimentales. Comment faire pour mesurer les effets du sourire d'une façon plus sournoise? Pour que les participants n'aient même pas conscience de l'expression de leur visage?
Regard noir, sourire en coin
Sur ce genre d'astuces, d'autres chercheurs avaient déjà cogité. Dans les années 1960, James Laird, à l'époque étudiant de troisième cycle à l'université de Rochester, avait concocté une ruse des plus élaborées: il avait dit à un groupe d'étudiants qu'il cherchait à analyser l'activité de leurs muscles faciaux dans diverses situations et avait fixé des électrodes au coin de leur bouche, au bord de leur mâchoire et entre leurs sourcils. Les électrodes étaient reliées à des appareils qui avaient l'air extrêmement sophistiqués, mais qui, en réalité, étaient parfaitement inertes.
Ensuite, Laird allait expliquer aux étudiants qu'ils devaient contracter et décontracter certains muscles. «Maintenant, j'aimerais que vous contractiez ceux-ci», dira-t-il, en touchant leurs sourcils. «Contractez-les en les rapprochant l'un de l'autre et en les étirant vers le bas». Au tour ensuite de la mâchoire «Maintenant, contractez ceux-là. Contractez les en serrant vos dents». Petit à petit, il obtient les expressions qu'il recherche –un regard noir, un sourire en coin, etc.
Martin a sa petite idée: ils pourraient demander aux participants de tenir un thermomètre –ou mieux encore, un stylo– entre leurs dents
Dans une expérience ultérieure, Laird reliera 32 étudiants à de fausses électrodes et, après les avoir fait sourire ou froncer les sourcils, leur présentera des caricatures et leur demandera d'évaluer leur degré de drôlerie de 1 à 9 –de «pas du tout drôle» à «le dessin le plus drôle que j'ai vu dans ma vie». Une fois toutes les données moulinées, il regarde si le feedback facial a marché: en fronçant les sourcils, les volontaires ont donné, en moyenne, 4,4 points de rigolade aux dessins. Avec le sourire, le chiffre grimpe à 5,5 –les participants avaient trouvé plus drôles exactement les mêmes dessins.
Éclair de génie
Mais le subterfuge de Laird n'était pas non plus parfait. Malgré toutes ses précautions, les étudiants n'avaient pas eu trop de mal à deviner ses intentions. Quasiment un cinquième d'entre eux avaient capté le truc, que les mouvements de leurs muscles faciaux étaient liés à leurs émotions.
Strack et Martin savaient qu'ils devaient redoubler de vigilance. À un moment du road trip, Strack songe à des thermomètres. Pour appuyer son argument, il met un doigt dans sa bouche. Martin est au volant. Dans le rétroviseur, il voit les lèvres de Strack former une moue. Ils avaient leur première expérience. Pour la seconde, Martin a sa petite idée: ils pourraient demander aux participants de tenir un thermomètre –ou mieux encore, un stylo– entre leurs dents.
Tel fut l'éclair de génie à l'origine d'un classique de la psychologie. Lorsque les sujets tenaient un stylo entre leurs dents, leur bouche formaient forcément un ersatz de sourire. Lorsqu'ils avaient le stylo entre leurs lèvres, ils avaient l'air de passer un sale quart d'heure. Et personne, parmi les volontaires, ne pouvait savoir ce quoi il retournait.
De retour dans l'Illinois, Strack et Martin répètent l'expérience de Laird, mais en remplaçant les électrodes factices par des stylos, tendus à 92 étudiants, auxquels les chercheurs donnent leurs instructions. Le but officiel de l'étude: tester la «coordination psychomotrice» des individus et voir comment des handicapés peuvent réapprendre à écrire ou à téléphoner. Pour ce faire, les étudiants devaient effectuer des tâches précises: se servir des feutres pour relier des points sur une feuille ou souligner les voyelles d'un texte. Enfin, les scientifiques leur présentaient quatre cartouches d'une célèbre bande dessinée américaine, The Far Side, et leur demandaient d'évaluer leur facétie.

Votre légende ici
Viralité
Les résultats seront cohérents avec ceux de Laird. Les étudiants boudeurs –ceux qui avaient le stylo entre les lèvres– donnèrent une moyenne de 4,3 aux dessins. Les étudiants rigolards –ceux qui avaient le stylo entre leurs dents– montèrent à 5,1. En outre, pas un seul participant n'allait réussir à deviner l'objet de l'étude, ni comprendre que leur expression faciale avait été manipulée. Que leur froncement de sourcils ou leur sourire aient pu modifier leur jugement, ils n'en eurent pas la moindre idée.
«C'était théoriquement trivial», explique Strack, sauf que sa méthode est à la fois maligne et révélatrice, et semble montrer, une bonne fois pour toutes, que le feedback facial agit directement sur le cerveau, sans que la conscience intervienne. Bientôt, il croule sous les appels de journalistes: est-ce que l'astuce du stylo dans la bouche peut servir à soigner la dépression? Il leur rit au nez. Il y a des techniques bien meilleures, et bien plus efficaces, leur répond-t-il, pour rendre quelqu'un heureux.
Au cours des décennies suivantes, bon nombre de laboratoires adapteront et enrichiront cette idée. Un groupe de chercheurs colle, bout à bout, deux tees de golf sur les sourcils de volontaires, ce qui les oblige à les froncer. (Et les rend visiblement tristes). Un autre indique à ses cobayes cinq façons différentes de tenir le stylo dans leur bouche, histoire de comparer les effets d'un sourire qui semble crispé, poli ou faux, à ceux d'un large sourire, d'apparence spontanée et sincère. (Plus le sourire est authentique, plus les volontaires se disent heureux).
Ils voulaient un truc à répliquer, j'ai proposé mon étude sur le feedback facial. J'étais persuadé qu'ils allaient retomber sur les mêmes résultats
La méthode de Strack et Martin se répand bientôt dans tout un tas de contextes –et on cherche de plus en plus à lui donner des applications concrètes. Si les expressions faciales peuvent jouer sur l'état mental, est-ce que le sourire peut atténuer, voire guérir, des maux sociétaux? Oui, visiblement. En 2006, des scientifiques de l'université de Chicago montrent qu'on peut rendre des gens moins racistes en les forçant à sourire – avec un stylo entre les dents – quand ils regardent des photos de Noirs. En 2013, une équipe de chercheurs espagnols observe que la technique du stylo dans la bouche rend des individus plus créatifs lorsqu'ils doivent effectuer un exercice de dessin. Et Strack démontrera lui-même qu'en forçant des étudiants à faire la tronche, il peut les manipuler et leur faire croire que des célébrités ne sont finalement pas si connues que ça.
«Je suis totalement convaincu»
De fait, la découverte fondamentale de Strack et Martin –qu'une expression faciale peut modifier vos sentiments, même si vous n'avez pas conscience de l'avoir– a été maintes et maintes fois reproduite, a minima théoriquement. (Martin aime refaire cette expérience à chaque rentrée avec ses étudiants en première année de psychologie). Ces dernières années, elle a même rejoint l'appareil clinique. Une idée que Strack lui-même trouvait ridicule dans les années 1980 est désormais prise très au sérieux: plusieurs essais récents et randomisés montrent qu'en injectant du Botox dans le visage de patients dépressifs, afin de faire disparaître leurs rides d'expression du haut du visage, on les aide à guérir. Pour les plus fervents défenseurs de la théorie du feedback facial, il suffit même que des gens perdent la capacité physique de tirer la gueule pour que leur humeur s'améliore.
Après toutes ces années de recherches, et notamment celles prouvant l'efficacité clinique du feedback facial, Strack n'avait plus trop de doute sur la justesse de son hypothèse. «L'influence directe de l'expression faciale sur le jugement a été démontrée à de très, très nombreuses reprises, m'a-t-il dit. Je suis totalement convaincu.» D'où son relatif empressement, il y a trois ans, à aider les sceptiques.
«Ils voulaient un truc à répliquer, j'ai proposé mon étude sur le feedback facial, dit-il. J'étais persuadé qu'ils allaient retomber sur les mêmes résultats, donc je ne voyais pas trop l'intérêt, mais bon, ça ne me posait pas de problème. S'ils voulaient le faire, alors qu'ils le fassent.»
La parole au sceptique
Le psychologue en charge du projet de réplication, E. J. Wagenmakers, de l'université d'Amsterdam, n'avait pas d'intérêt particulier pour les émotions, ni pour l'étude des expressions. «Fondamentalement, mon but était méthodologique», m'explique-t-il. Ce qu'on peut traduire par: je gagne ma vie à critiquer les méthodes utilisées par mes collègues. «La science est faite par des humains, ajoute-il. Et les humains sont sujets à des tas de biais. Le scepticisme est donc tout à fait légitime.»

Pour autant, lorsque Fritz Strack soumet son papier de 1988 à son œil scrutateur, Wagenmakers estime les probabilités d'une réplication positive à un niveau assez élevé. Dans la liste des critères avantageux, beaucoup de cases sont cochées. L'étude repose sur une longue histoire, qui remonte à James et Darwin; a priori, elle semble plausible; et des recherches ultérieures l'ont confirmée. «Personnellement, j'ai pensé qu'elle avait de bonnes chances de réussir». Combien précisément? «À peu près 30%».
En un sens, il était optimiste. Les projets de réplication n'ont pas leur pareil pour finir en désastre. Lorsque des chercheurs ont tenté de répliquer 100 expériences de psychologie publiées en 2008, seules 39% des tentatives se sont révélées fructueuses. Ces dernières années, la revue Perspectives on Psychological Science a ouvert ses colonnes aux «Rapports de réplication agréés», soit la référence absolue pour ce type de travaux, dans lesquels différents chercheurs essayent de recréer une seule étude, afin que les données de leurs laboratoires puissent être combinées et agrégées pour l'analyse. Sur les quatre premiers rapports effectués et publiés, trois se sont soldés par un échec.
En mars, j'écrivais sur le RRR de la fatigue décisionnelle –soit l'idée que la maîtrise de soi fonctionne comme un muscle et qu'elle s'use si on s'en sert trop, que le moi peut s'épuiser. Les raisons de voir la bouteille à moitié pleine étaient légion: les preuves de cet effet avaient été produites à des centaines de reprises et par des tas de manières. Mais il y avait aussi des questions en suspens. Pas mal d'observations semblaient foutraques, comme celle estimant que la réserve de volonté peut se remplir à coup de citronnade. Et deux groupes de scientifiques avaient déjà essayé d'analyser toutes les recherches sur le sujet, pour arriver à des conclusions contradictoires. Pour l'un, il y avait un effet significatif. Pour l'autre, il était infime. En fin de compte, que les réplicateurs obtiennent comme résultat: «Rien, queudchi, walou», n'eut pas grand-chose de réellement surprenant.
Les travaux sur le feedback facial, par contre, n'avaient jamais été la cible des sceptiques. Il s'agissait d'une théorie que personne n'avait voulu déboulonner. Souvenez-vous: la première étude de Strack avait confirmé (et développé) une très vieille idée. Sa technique du stylo dans la bouche avait fonctionné dans d'autres laboratoires. Pour autant, il ne l'avait pas proposée sur la liste de diffusion sans réserves.
Deux ans de travail
En réalité, ses mises en garde avaient été nombreuses. De un, l'étude n'avait pas grand-chose à voir avec l'amorçage social. De deux, il était le premier à admettre que les preuves n'étaient pas écrasantes –l'effet n'avait jamais été énorme. Reste que son idée principale reposait sur un quart de siècle de recherches et n'avait jamais été remise en cause au sein de la communauté scientifique. «Je suis certain que certains collègues des sciences cognitives pourront trouver quelques non-réplications», avait-il prédit. Mais le résultat principal, lui, allait tenir.
J'espérais vraiment que cette étude allait marcher. Malheureusement, ce n'est pas ce qui s'est passé
Un mois après son offre, Strack avait envoyé tous les documents relatifs à ses recherches des années 1980, y compris les bandes dessinées, à Wagenmakers. Pour être finalisé, le projet allait demander encore deux ans. Avec l'aide de ses assistantes, Titia Beek et Laura Dijkhoff, Wagenmakers passa au peigne fin tous les aspects de l'étude, un travail détaillé sur une plateforme publique. Ils se mettent d'accord sur la formulation de l'expérience («Vous participez à une étude sur la coordination psychomotrice»), le modèle de feutre à utiliser (des Sharpie ou des Stabilo 68s), quels dessins montrer aux volontaires (un nouvel échantillon extrait de The Far Side), et comment, exactement, ils prévoient d'analyser les données.
En avril 2015, l'expérience à proprement parler peut commencer. Le groupe de Wagenmakers avait rassemblé des scientifiques de 17 laboratoires, sur 8 pays, et chacun devait recréer la procédure originale de Strack. Au total, la réplication sera menée sur 2.000 participants. Et la méthode quelque peu modifiée: maintenant, les cobayes recevraient leurs instructions de vidéos préenregistrées, pour éviter d'éventuels biais générés par l'interaction personnelle avec les observateurs. Et les volontaires seraient filmés pendant l'expérience, pour que les chercheurs s'assurent de la bonne manipulation des stylos.
L'échec
Seize mois supplémentaires, à temps partiel, furent encore nécessaires pour collecter les données, faire tourner les analyses, rédiger l'étude et finaliser son édition.
Les résultats tombèrent le 18 août. Ils n'étaient pas bons.
Dans la moitié des laboratoires (9 sur 17, pour être précis), les volontaires forcés à sourire avaient, en moyenne, trouvé les dessins légèrement plus drôles –selon un écart d'1 à 2/10e de point, sur l'échelle à 10 degrés. (Dans l'étude originale de Strack, la différence était bien plus conséquente: 0,82 point). Dans les données des autres laboratoires, l'effet semblait aller dans le sens inverse: les sourieurs avaient trouvé les dessins entre 1 à 2/10e de point moins rigolos. Lorsque Wagenmakers agrégea tous les résultats, l'effet fut nivelé et disparut. La différences entre les sourieurs et les fronceurs fut réduit à 3/100e de point. Soit une poussière de hasard, un écho lointain dans le bruit.
«J'espérais vraiment que cette étude allait marcher, précise Wagenmakers. Malheureusement, ce n'est pas ce qui s'est passé.»
Face aux résultats du RRR, Fritz Strack ne regrette rien, mais, une nouvelle fois, ne les prend pas vraiment au sérieux. «Je ne vois pas trop ce qu'on a appris», dit-il.
Comprendre
Il y a deux ans, lorsque la réplication de son travail était en cours, il avait cosigné avec le psychologue social Wolfgang Stroebe une critique très sévère du projet. Intitulé «La prétendue crise et l'illusion de la réplication exacte», l'article soutenait que des procédés comme celui des RRR relevaient d'une «méconnaissance épistémologique», vu qu'il était tout bonnement impossible de récréer à la perfection une ancienne étude. Les gens changent, les temps changent, et les cultures changent, écrivaient-ils. Aucun psychologue social ne se baigne deux fois dans le même fleuve. Même si une expérience pouvait être reproduite, ajoutaient-ils, un résultat négatif ne serait pas vraiment intéressant, vu qu'il ne pourrait rien dire des raisons de l’échec de la réplication.
Ce qui fait que lorsque Strack examina les données les plus récentes, il n'allait pas y voir un échec complet, mais des résultats contrastés. Pour le stylo dans la bouche, neuf laboratoires avaient observé un effet allant dans la bonne direction. Huit autres avaient observé l'inverse. Au lieu de faire la moyenne des deux ensembles de résultats et tomber sur un effet nul, pourquoi ne pas chercher à comprendre les divergences entre les deux groupes? Peut-être qu'il y avait une raison expliquant pourquoi la moitié des laboratoires n'avaient pas pu susciter l'effet.

«Face à ces huit non-réplications, je ne vais pas changer d'avis. Je n'ai aucune raison de changer d'avis», me dit Strack. Aujourd'hui, une poignée de laboratoires ont remis ses résultats en question. Mais à l'époque, il y avait énormément d'études, et depuis très longtemps, qui plaidaient en sa faveur. Comment pouvait-il tourner le dos à toutes ces preuves?
Dans un commentaire publié avec le rapport de réplication, Strack isole ce qui relève, pour lui, de soucis méthodologiques. Premièrement, plus de 600 sujets avaient été exclus de l'analyse, ce qui représentait environ ¼ du total des participants. Selon le RRR, c'est parce qu'ils avaient mal utilisé les feutres, ou évalué les dessins de manière absurde. Mais l'idée de Strack, c'est que ces individus avaient en réalité deviné l'objet de l'étude. Après tout, on parle d'un classique du genre.
Une réplication biaisée?
Strack se demandait aussi si les dessins de Far Side, «emblématiques de l'air du temps des années 1980», pouvaient «instaurer un contexte psychologique similaire» chez des étudiants de 2015 et alentours. Gary Larson avait conclu sa bande dessinée en 1995. Selon Strack, il avait fait part de ce problème à Wagenmakers dès le début du projet, mais ses inquiétudes avaient été ignorées. (L'équipe du RRR avait en réalité pré-évalué les dessins auprès d'un panel de 120 étudiants, pour voir s'ils les trouvaient aussi drôles qu'à l'époque de Strack, et c'était le cas).
Et il y avait aussi le problème de la vidéo, susceptible de rendre les participants plus attentifs à leurs expressions faciales. Selon Strack, il était même tout à fait possible que les volontaires se refrènent dans leurs émotions. Et enfin, il se demandait s'il n'y avait pas des signes de biais dans la dispersion des résultats entre les 17 laboratoires. Ceux avec les échantillons les plus conséquents, soulignait-il, semblaient trouver des résultats plus positifs. C'était comme si les réplicateurs avaient manipulé leur étude pour qu'elle soit a priori défavorable à l'effet du stylo dans la bouche. (Selon Joe Hilgard, spécialiste des méta-analyses à l'université de Pennsylvanie, cette idée n'est pas très convaincante).
Leonard Martin est du même avis que Strack et estime que les réplicateurs n'ont pas correctement suivi leur procédure. Le travail était même tellement bâclé, m'explique-t-il par e-mail, «que le vrai problème ne concerne pas tant la réplicabilité de l'étude des stylos, ou la réplicabilité des études de psychologie en général, mais la méthode d'évaluation de la réplicabilité». Et vu comment ce genre de travaux est susceptible de fragiliser des résultats par ailleurs établis et de ternir des réputations individuelles, il ajoute que le «Projet réplication» devrait faire très attention:
Si on continue avec un tel manque de rigueur, la psychologie pourrait tomber dans sa propre version du maccarthysme
«Si on continue avec un tel manque de rigueur, la psychologie pourrait tomber dans sa propre version du maccarthysme.»
Strack a un dernier souci. «Ce que je trouve vraiment déplorable, c'est ce que toute cette histoire de réplication n'a même pas de question de recherche». Il n'y a pas «d'hypothèse spécifique, donc c'est très difficile de tirer la moindre conclusion, me dit-il. Ils disent que l'effet n'est pas vrai, mais je ne sais pas ce que ça veut dire. Peut-être que nous avons appris que [le dispositif du stylo dans la bouche] n'est pas une procédure très solide. Mais je n'ai jamais prétendu le contraire.»
Double vérification
Selon Strack, le RRR n'offre aucun argument cohérent permettant de réfuter les très nombreuses études, menées depuis des années, qui appuient ses premières conclusions. «Vous ne pouvez pas dire que toutes ces études sont trafiquées», dit-il en faisant référence aux diverses façons qu'ont les scientifiques de faire reluire leurs statistiques. «Il faut les examiner et dire pourquoi elles se trompent.»
J'ai donc pris Strack au mot et je suis allé regarder son article de 1988, pour voir s'il n'y avait pas quelque chose de bancal. L'article inclut les résultats de deux expériences. Dans la première, Strack et Martin demandent à des étudiants de tenir un stylo entre leurs dents ou entre leurs lèvres, et d'évaluer la drôlerie de dessins. C'est ici qu'ils trouvent les 0,82 point de différence entre les sourieurs et les fronceurs.
Sauf que les psychologues n'étaient pas encore convaincus de la réalité de leurs résultats, et ils les ont cachés à leur patron, le psychologue social Robert Wyer. «On n'a pas osé le lui dire, car il nous aurait répondu “vous êtes cinglés”». Les chercheurs allaient donc attendre d'avoir une autre possibilité d'essayer une nouvelle version de la même expérience, que l'article décrit comme une tentative de «renforcer la base empirique des résultats et d'étayer la validité de la méthodologie». En d'autres termes, Strack s'est répliqué lui-même.

Pour cette deuxième version, Strack complexifie légèrement le bouzin. Ici, les étudiants doivent répondre à deux questions au lieu d'une. De un, est-ce qu'ils trouvent le dessin drôle et de deux, est-ce qu'il les fait rire. Le but étant de distinguer un jugement objectif, sur le degré d'humour du dessin, de leurs émotions subjectives. Et lorsque les étudiants répondent à la première question –la même que dans la première expérience– l'effet semble avoir disparu. Là, ce sont les fronceurs qui trouvent les dessins les plus drôles, de 0,17 point. Si le feedback facial fonctionne, c'est uniquement sur la deuxième question. Ici, les sourieurs assignent au dessin un point entier de drôlerie supplémentaire. (Dans le RRR, la seconde question est posée lors d'une procédure similaire à la première expérience).
Affronter la contradiction
Matériellement, Strack tombe sur des faits qui contredisent directement ses premiers résultats: avec la même technique du stylo dans la bouche, et avec la même question, il obtient la réponse inverse. N'est-on pas là devant une sorte d'échec de réplication?
Strack n'est pas de cet avis. Dans l'article, il parle d'un succès. «Les résultats de l'étude 1 (…) ont été répliqués dans l'étude 2». En réalité, c'est seulement après l'étude 2, m'explique-t-il, que Strack et Martin se sont risqués à partager leurs résultats avec Wyer. Selon ce dernier, la simple présence d'une seconde question –«est-ce que cela vous amuse?»– allait effectivement changer la réponse des étudiants à la première, et c'est précisément ce qui s'est passé. Dans l'étude 1, les jugements objectifs et les émotions subjectives sont fondus dans une seule réponse. Dans l'étude 2, les étudiants répondront séparément à deux questions –et le véritable effet du feedback facial ne se montrera que dans la réponse à la seconde question. «C'est ce que nous avions prédit», affirme Strack.
Ce qui tombe sous le sens, d'une certaine manière. Sauf qu'avec le recul – ou avec ses biais, pourrait-on dire – l'étude 2 a tout de la mise en garde. Les fondations d'un classique de la psychologie avaient, a minima, quelques petites fissures. L'étude montrait la voie de sa propre instabilité. Pourquoi personne ne l'a remarqué?
C'est grave docteur?
Quelle est la gravité de cette nouvelle panne réplicative? La réponse dépend de votre tempérament. Si vous lisez l'étude dans une humeur optimiste –par exemple, avec un surligneur entre vos dents et vos lèvres étirées dans un sourire– peut-être vous direz-vous que le problème n'est que mineur. Peut-être que les dessins de The Far Side ont mal été sélectionnés, qu'il ne fallait pas filmer les volontaires ou qu'il y en a eu trop d'exclus. Dans tous les cas, l'échec de réplication ne dit qu'une seule chose: que pour une raison ou pour une autre, la recréation d'une étude conçue sur le chemin du carnaval, en 1985, n'a pas fonctionné.
Si vous voulez qu'on fasse attention à vos travaux –à la fois dans les médias et chez vos collègues– mieux vaut faire en sorte de trouver des données fofolles et inattendues
Ou peut-être que vos pensées sont plus sombres. Peut-être qu'il y a avait, au départ, quelque chose de bancal dans l'étude originale. Peut-être que cette histoire de stylo dans la bouche est fondamentalement biaisée et que ce biais se réitère à chaque fois. Et voilà que le doute vous habite. Et s'il y avait un problème encore plus grave? Le RRR n'a concerné que l'étude la plus prestigieuse, la plus inattaquable, choisie justement pour sa solidité et son influence. Si ce classique du feedback facial n'est pas répliqué, qu'est-ce à dire des autres études? Peut-être qu'il y a un problème dans cette idée que les expressions auraient un effet direct sur nos émotions. Peut-être que Darwin s'est trompé!
Et si tous les travaux sur le feedback facial souffraient du même biais de publication? À la suite de Strack et Martin, quand des scientifiques sont tombés sur des résultats confirmant leur étude, ils les ont publiés. Autrement, ils les ont peut-être remisés au placard. Dans ce cas, toutes les études que Strack appelle à sa rescousse sont peut-être complètement bidon. Oui, même les essais randomisés –ceux qui trouvent que le Botox soigne la dépression. Peut-être qu'il s'agit toujours de chasse au faux-fuyant. Peut-être qu'après des injections de Botox, si les gens se sentaient mieux, c'est parce qu'ils se sentaient tout simplement mieux dans leur peau, moins complexés par leurs rides. Ou peut-être que leur entourage s'est mis à être plus gentil avec eux, maintenant qu'ils n'avaient plus constamment leur air renfrogné.
Alors maintenant, mettez un feutre entre vos lèvres et dites-moi ce que vous voyez. Sur cinq RRR, quatre se sont soldés par aucun effet du tout. Qu'importe l'effet étudié – quasiment toutes les réplications d'envergure se sont terminées en eau de boudin. Si le feedback facial ne semblait pas trop suspect a priori, quid des recherches sur la cognition incarnée – ces histoires de posture du vainqueur, d'effet Lady MacBeth? (Spoiler: elles aussi se sont heurtées à l’écueil de la réplication).
Esprits critiques
Est-ce que toute la psychologie bat de l'aile? Quid des neurosciences cognitives? Des autres domaines de la recherche scientifique? Ces questions sont au cœur de la crise de la réplication. Personne ne sait vraiment comment calibrer son inquiétude. Et ce sont des questions que j'ai souvent posées dans mes articles sur le sujet: après ce nouveau résultat nul, où placer le curseur de panique? Ou en termes encore plus clairs: ne me ménagez pas docteur, j'en ai pour combien de temps?
Les scientifiques sont plutôt du genre rassurant. Ils n'aiment pas se mettre la rate au court-bouillon. «Pour moi, le danger serait de trop généraliser», fait remarquer Daniel Simons, psychologue à l'université de l'Illinois et un des éditeurs des RRR. Oui, vous vous êtes peut-être fourvoyé en tirant des conclusions de l'étude originale de Strack. Sauf que vous vous fourvoyez peut-être tout autant en tirant des conclusions de cette panne de réplication. L'exercice doit affûter notre esprit critique, pas nous transformer en prophètes de malheur.
Le problème, c'est qu'être un psychologue sceptique, cela n'a rien de très valorisant ni de très valorisé. Si vous voulez qu'on fasse attention à vos travaux –à la fois dans les médias et chez vos collègues– mieux vaut faire en sorte de trouver des données fofolles et inattendues. «Soit une autre façon de dire que vos découvertes sont improbables ou probablement fausses», précise Wagenmakers.
Selon lui, une partie de la faute revient aux éditeurs des revues scientifiques, qui placent la barre trop haut pour des recherches solides, incrémentales. Et il s'en prend aussi aux journalistes. Ce sont eux qui mettent en avant les études les plus branlantes. Notre goût pour les études absurdes (les ouragans aux noms féminins sont plus meurtriers), ou pour celles dans lesquelles on peut faire le moindre pont avec le développement personnel, envoie de mauvais signaux aux chercheurs. Cela leur dit que les découvertes les plus faibles sont celles qui comptent le plus.
La tentation de l'apocalypse
Les journalistes sont aussi noyés dans le conflit d'intérêt. Je sais que, pour mes lecteurs, il serait plus dramatique et plus choquant –et plus cliquable– que chaque nouvelle panne de réplication nous rapproche un peu plus de l'apocalypse. Et j'avoue, cette dernière mouture donne des envies de raconter des histoires d’effondrement, de guerre entre anciens et modernes, d'un tsunami de doute qui ravage toute la science. Je sais que je ferais péter les statistiques si je vous raconte que le feedback facial a été réfuté, que vous pensiez tout savoir sur les émotions, mais qu'en fait vous vous trompez (bande d'abrutis). Je sais que je vous divertirais davantage en vous disant que la psychologie prend feu.
Si de mauvais signaux ont pu créer cette crise, des signaux tout aussi mauvais peuvent en exagérer l'ampleur et la portée.

Parmi les dessins utilisés dans ce dernier RRR, il y en avait un, sorti en octobre 1988, soit quelques mois à peine après la publication de l'étude de Strack. On y voit trois poissons rouges, perchés sur le rebord de leur bocal qui, pour une raison quelconque, est en flammes. L'un des poissons dit aux autres «Ouf, on a réussi à s'enfuir à temps. Maintenant, évidemment, on est tous foutus.»
J'ai pensé à ces poissons en m'entretenant avec E.J. Wagenmakers. Vu comment les pannes de réplication se succèdent, plonger dans la mélancolie, et un peu dans la panique, n'a rien d'insensé.
«Je suis d'accord, dit-il. C'est triste, mais c'est le passé. On doit regarder vers l'avenir et je pense qu'il y a plein de progrès possibles.» Il précisera sa pensée par e-mail: les journaux modifient leurs directives, la transparence est de plus en plus de mise, les organismes de financement dénouent de plus en plus les cordons de leur bourse pour de la réplication. Certains psychologues ayant vu la lumière se mettent même à auditer leurs propres recherches, pour garantir toujours plus de fiabilité. «La discipline se métamorphose, écrit Wagenmakers. Elle fait sa révolution, si vous voulez.»
L'an 01
Beaucoup de choses ont changé ces dernières années et même si les échecs de réplication s'empilent, il y a aussi énormément de raisons d'être optimiste. En mars, quand l'épuisement du moi a visiblement mordu la poussière, un chercheur dans ce domaine, Michael Inzlicht, a laissé entendre que le moment était bientôt venu de tout recommencer. «À un moment donné, on va devoir repartir de zéro. Se dire, c'est l'an 01», a-t-il écrit, semble-t-il plein d'espoir.
J'ai précisé mes biais, mais je ne peux pas m'empêcher de penser que nous sommes au stade des poissons qui viennent tout juste de remonter de leur bocal en feu. Ils ont évité une grosse catastrophe et ils se tournent vers l'avenir.
Et le passé, alors? Les éventuels dégâts de la crise de la réplication vont dans les deux sens. Si nous avons réglé le problème pour l'avenir, en nettoyant nos saloperies statistiques, nos biais de publication, les semi-arnaques des sciences sociales, il nous faut encore mettre les mains dans un sacré cambouis. Ces processus de réplication nous apprennent à faire de la bonne science, mais aussi que nous sommes assis sur un tas de déchets toxiques. Pour les nettoyer, il ne suffit pas de les montrer.
Quoiqu'il arrive, les révélations sont catastrophiques. Les recherches du passé constituent le substrat de l'entreprise scientifique –c'est par elles que la science vit, grandit, que de nouvelles idées émergent du flot limpide de leurs aînées. Aujourd'hui, nous savons que les eaux sont polluées, et nous n'avons pas encore trouvé le bon filtre.
Je veux dire, c'est génial que les psychologues aient identifié leurs problèmes. Qu'ils commencent à les prendre à bras-le-corps. Qu'ils aient compris qu'ils voguaient sur la rivière Cuyahoga des résultats douteux. C'est génial qu'ils aient pu s'enfuir à temps.
Mais bon, quand on y pense, ils sont tous foutus, non?