La crise de la reproductibilité : pourquoi tant de résultats en psychologie n'ont pas tenu

En août 2015, une équipe de 270 chercheurs menée par le psychologue Brian Nosek a publié un chiffre unique qui s'est abattu sur la discipline comme un verdict. Réunis sous la bannière de l'Open Science Collaboration, ils avaient pris 100 études parues dans trois grandes revues de psychologie, refait chacune d'elles avec le plus grand soin possible, puis additionné les résultats. Environ 36 pour cent d'entre elles se sont reproduites. Autrement dit, lorsque les scientifiques ont retroussé leurs manches et refait ces expériences bien connues, près de deux sur trois n'ont pas réussi à produire l'effet d'origine.

Ces études n'étaient pas obscures. Beaucoup avaient été citées des centaines de fois, enseignées dans des cours de licence et reprises dans des livres grand public sur l'esprit. Certaines avaient lancé des programmes de recherche entiers. Les voir s'évaporer sous l'effet d'un nouveau test rigoureux fut, pour toute une génération de psychologues, à la fois alarmant et éclairant. Le chiffre ne prouvait pas que la psychologie était une imposture, mais il imposait une question dérangeante que la discipline avait pu éviter pendant des décennies : quelle part de ce que nous croyons savoir sur le comportement humain est réellement vraie ?

Une remise en cause née d'un seul projet rigoureux

Le projet qui a déclenché cette remise en cause était volontairement sobre dans sa conception, et cette retenue explique en partie son importance. L'Open Science Collaboration a sélectionné ses 100 études dans trois revues respectées, toutes publiées en 2008, couvrant la psychologie sociale et la psychologie cognitive. Pour chaque étude, une équipe a mené une réplication directe, c'est-à-dire qu'elle a suivi la procédure d'origine aussi fidèlement que possible, souvent en concertation avec les auteurs initiaux, et surtout en utilisant des échantillons nettement plus grands que ceux d'origine. Puis ils ont consigné chaque résultat au grand jour, partageant matériel et données pour que quiconque puisse vérifier le travail.

Cette transparence était aussi importante que la statistique mise en avant. Il ne s'agissait pas de tendre une embuscade à des chercheurs particuliers, mais de dresser un inventaire honnête de la littérature publiée. À plusieurs égards, le tableau était inquiétant. Là où les études originales rapportaient un effet, les réplications tendaient à trouver des effets dont la taille était en moyenne deux fois moindre, et beaucoup n'étaient pas statistiquement distinguables de zéro. Les effets en psychologie cognitive, qui repose souvent sur des tâches de laboratoire plus nettes, ont mieux résisté que ceux de la psychologie sociale, qui étudie des comportements plus désordonnés et plus dépendants du contexte. Rien de tout cela ne venait d'un adversaire extérieur. Cela venait de la discipline qui s'examinait elle-même avec les outils auxquels elle accordait déjà sa confiance.

Les découvertes célèbres qui se sont effondrées en silence

Certaines des victimes étaient des résultats qui circulaient depuis des années comme des faits établis, le genre que l'on répète avec assurance dans les cours et les conférences TED. Trois d'entre eux en particulier sont devenus les emblèmes de la crise.

Le premier était l'amorçage social, l'idée que des indices subtils et inaperçus peuvent remodeler le comportement de manière étonnamment marquée. Une étude pionnière célèbre affirmait que des volontaires exposés à des mots associés au grand âge marchaient ensuite plus lentement dans le couloir. Lorsque des laboratoires indépendants ont tenté de reproduire ce résultat avec des contrôles appropriés, l'effet s'est révélé insaisissable. Le deuxième était l'épuisement de l'ego, l'hypothèse selon laquelle la volonté puiserait dans une ressource limitée qui s'épuise, de sorte qu'exercer sa maîtrise de soi sur une tâche vous laisserait plus faible pour la suivante. Cette hypothèse disposait d'une vaste littérature à l'appui, et pourtant un vaste effort de réplication coordonné et préenregistré, mené dans de nombreux laboratoires, n'a trouvé que peu ou pas d'effet. Le troisième était la posture de pouvoir, l'affirmation selon laquelle adopter une posture ample et assurée pendant quelques minutes augmenterait la testostérone, ferait baisser le cortisol, l'hormone du stress, et conduirait les gens à se comporter avec plus d'audace. Les affirmations hormonales et comportementales n'ont pas survécu à un nouveau test rigoureux, et l'une des autrices initiales a fini par s'en distancier publiquement.

Il faut être précis. Une réplication ratée ne signifie pas toujours que l'effet d'origine n'existe pas ; elle peut signifier que l'effet est plus faible, plus fragile ou plus dépendant des conditions qu'on ne le croyait au départ. Mais lorsqu'un résultat ne peut pas être reproduit de manière fiable par des chercheurs compétents suivant la même recette, sa prétention à constituer un savoir établi disparaît, aussi célèbre fût-il autrefois.

L'arithmétique qui se cachait sous l'effondrement

Pourquoi tant de recherches se sont-elles révélées si fragiles ? Une partie de la réponse tient à une arithmétique peu reluisante. Pendant la majeure partie du vingtième siècle, une expérience typique de psychologie utilisait à peu près vingt à quarante participants par condition. Cela paraît raisonnable jusqu'à ce que l'on considère la taille des effets que les psychologues étudient réellement. Le comportement humain est influencé par un enchevêtrement énorme de causes, si bien que l'effet d'une seule manipulation est généralement faible à modéré. Détecter de façon fiable un effet réellement faible exige bien plus de quarante personnes ; cela peut en exiger des centaines.

Le concept pertinent est la puissance statistique, c'est-à-dire la probabilité qu'une étude détecte un effet réel lorsqu'il existe véritablement. Les études sous-dimensionnées ne sont pas seulement moins sensibles ; elles sont activement trompeuses. Lorsqu'une étude petite et sous-dimensionnée franchit malgré tout le seuil de la significativité statistique, l'effet qu'elle rapporte est souvent surestimé, car seul un résultat exceptionnellement grand (et en partie chanceux) aurait pu atteindre la significativité avec aussi peu de participants. La littérature s'est donc remplie de tailles d'effet qui semblaient impressionnantes mais qui étaient, en partie, des mirages statistiques. La crise était déjà inscrite dans les faits avant que quiconque ne se conduise mal, simplement parce que les échantillons étaient trop petits pour soutenir les conclusions qu'on en tirait.

Comment des chercheurs honnêtes se sont trompés eux-mêmes

Le problème de fond, toutefois, n'était pas une mauvaise arithmétique mais la souplesse discrète dissimulée au cœur de la pratique ordinaire de la recherche. Les logiciels statistiques modernes rendent d'une facilité déconcertante le fait de réaliser des dizaines d'analyses sur un même jeu de données, et un chercheur décide rarement de chaque détail à l'avance. Faut-il retirer les valeurs aberrantes, et à partir de quel seuil ? Faut-il contrôler l'âge, le genre ou l'humeur ? Lesquels des items d'un questionnaire comptent comme résultat ? Chacun de ces choix est défendable en lui-même, mais ensemble ils créent ce que le statisticien Andrew Gelman a appelé le jardin aux sentiers qui bifurquent, un ensemble ramifié de décisions analytiques où un sentier mène presque toujours à un résultat significatif.

Lorsque des chercheurs essaient sciemment analyse après analyse et ne rapportent que celles qui atteignent la significativité, cette pratique s'appelle le p-hacking, et elle gonfle le taux de faux positifs bien au-delà des 5 pour cent nominaux que le test de significativité est censé garantir. Le plus troublant est qu'il n'est pas nécessaire d'être malhonnête pour s'y livrer. Un scientifique sincèrement convaincu que son hypothèse est juste continuera d'ajuster jusqu'à ce que les données coopèrent, puis oubliera les impasses. L'article publié présente une histoire nette et assurée, mais la littérature bâtie sur de nombreux articles de ce type n'est pas ce qu'elle paraît. La fiabilité rapportée est une illusion produite par toutes les analyses qui ont été menées et jamais mentionnées.

Les incitations qui récompensaient les résultats fragiles

Ces habitudes individuelles étaient amplifiées par la structure même de l'entreprise tout entière. Les revues préfèrent nettement publier des résultats positifs, les études qui trouvent un effet, plutôt que des résultats nuls, les études qui ne trouvent rien. C'est le biais de publication, et tout chercheur sait qu'il façonne sa carrière. Un tiroir rempli de résultats nuls ne vous fait pas embaucher, financer ni titulariser, si bien que les résultats nuls disparaissent en silence tandis que les heureux positifs sont imprimés. Le corpus publié finit déséquilibré en faveur de résultats qui n'étaient peut-être que des coups de chance, parce que les échecs qui auraient pu les contrebalancer n'ont jamais atteint l'impression.

Le biais de publication encourage aussi une distorsion plus subtile, connue sous le nom de HARKing, abréviation de l'anglais « hypothesizing after the results are known », formuler une hypothèse après avoir connu les résultats. Dans les règles, une hypothèse est une prédiction faite avant de voir les données, et une prédiction confirmée est impressionnante précisément parce que l'on s'y est engagé à l'avance. Le HARKing inverse l'ordre : on mène l'étude, on regarde ce qui en ressort, puis on rédige l'article comme si on l'avait prédit depuis le début. Le résultat se lit comme une confirmation nette d'une idée audacieuse, alors qu'en vérité c'est la description du bruit qui s'est trouvé apparaître. Combinez des études sous-dimensionnées, une analyse flexible, le tiroir des résultats nuls disparus et des hypothèses ajustées après coup, et vous obtenez une machine presque conçue pour fabriquer des résultats qui ne se reproduiront pas.

Les réformes qui remettent la discipline d'aplomb

Le réconfortant dans cette histoire, c'est que la psychologie n'a pas réagi par le déni. Elle a réagi par la réforme, et ces réformes visent directement les mécanismes plutôt que de réprimander les individus. La pierre angulaire est le préenregistrement, un engagement public et horodaté portant sur votre hypothèse, vos méthodes et votre plan d'analyse exact, déposé avant de recueillir la moindre donnée. C'est la correction structurelle la plus simple disponible, et elle est puissante parce qu'elle trace une ligne nette entre prédictions et découvertes. Une fois votre plan d'analyse verrouillé par écrit, vous ne pouvez plus faire discrètement du p-hacking à travers le jardin aux sentiers qui bifurquent, et vous ne pouvez plus faire de HARKing, car chacun peut voir ce que vous aviez réellement prédit.

Une extension plus ambitieuse est le rapport enregistré. Ici, une revue examine et accepte provisoirement une étude sur la base de la qualité de sa question et de ses méthodes avant que la moindre donnée n'existe, et elle s'engage à publier les résultats qu'ils soient positifs ou nuls. Ce seul changement attaque le biais de publication à la racine, car l'acceptation ne dépend plus de l'obtention d'un résultat excitant. À cela s'ajoute l'adoption par la discipline d'échantillons nettement plus grands, mettant souvent en commun des participants de nombreux laboratoires afin que les effets puissent être mesurés avec une précision que les petites études n'ont jamais eue, conjuguée à des données ouvertes et à du matériel ouvert pour que quiconque puisse examiner et refaire le travail.

La réplication elle-même a aussi été clarifiée comme un savoir-faire à deux fonctions distinctes. Une réplication directe répète la procédure d'origine aussi fidèlement que possible pour vérifier si l'effet initial apparaît dans un nouvel échantillon ; elle demande : ce résultat précis est-il survenu par hasard ? Une réplication conceptuelle teste la même hypothèse sous-jacente à l'aide de méthodes différentes ; elle demande : l'idée plus large est-elle solide même si l'expérience particulière était imparfaite ? Les deux sont précieuses, mais elles répondent à des questions différentes, et une réplication conceptuelle ne pourra jamais se substituer à l'obligation de rendre des comptes qu'assure une réplication directe.

Ce qui ne se généralise toujours pas, même quand cela se reproduit

Même un résultat qui survit à une réplication directe peut comporter un problème distinct et plus discret. En 2010, les chercheurs Joseph Henrich, Steven Heine et Ara Norenzayan ont fait remarquer que l'écrasante majorité des participants de la psychologie provenaient de sociétés occidentales, instruites, industrialisées, riches et démocratiques, une population qu'ils ont désignée par l'acronyme WEIRD (Western, Educated, Industrialized, Rich, Democratic). Ces participants, souvent des étudiants de licence dans une poignée de pays riches, se révèlent atypiques sur de nombreuses mesures psychologiques, de la perception visuelle au raisonnement moral en passant par les conceptions du soi. Un résultat qui se reproduit parfaitement dans des échantillons d'étudiants américains peut malgré tout ne presque rien nous dire sur l'humanité en général. Cette question de généralisabilité s'ajoute à celle de la reproductibilité : il ne suffit pas qu'un résultat soit réel dans le laboratoire où il a été trouvé ; il faut aussi qu'il tienne au-delà de la frange étroite de gens qui ont par hasard été étudiés.

Prises ensemble, ces leçons ont transformé la manière dont un lecteur attentif devrait aborder toute affirmation psychologique. L'ancienne question consistait simplement à savoir si un résultat était statistiquement significatif. La question contemporaine est plus riche et plus sceptique. L'étude était-elle préenregistrée, de sorte que ses hypothèses et ses analyses aient été fixées à l'avance ? L'échantillon était-il assez grand pour détecter l'effet qu'elle revendique ? Une équipe indépendante l'a-t-elle confirmé par une réplication directe ? Et tient-il chez des gens qui ne ressemblent pas à des étudiants de licence des démocraties riches ? Une simple valeur p significative, jadis traitée comme un sceau de vérité, est désormais lue à juste titre comme le début d'une enquête plutôt que comme sa fin.

Points clés à retenir

Le projet de l'Open Science Collaboration de 2015, au cours duquel 270 chercheurs ont refait 100 études publiées et n'en ont vu se reproduire qu'environ 36 pour cent, a déclenché dans toute la discipline une remise en cause dont les causes étaient structurelles plutôt que l'œuvre de quelques fraudeurs. Des effets très en vue comme l'amorçage social, l'épuisement de l'ego et la posture de pouvoir ont échoué sous l'effet d'un nouveau test rigoureux parce que la machinerie de recherche sous-jacente était défaillante : des échantillons de vingt à quarante participants étaient bien trop petits (trop faibles en puissance statistique) pour mesurer de façon fiable les petits effets qu'étudie la psychologie, la souplesse de l'analyse moderne permettait le p-hacking à travers le jardin aux sentiers qui bifurquent, le biais de publication enterrait les résultats nuls, et le HARKing déguisait des découvertes a posteriori en prédictions confirmées. La réponse de la discipline a été une réforme authentique visant droit ces mécanismes, à savoir le préenregistrement, les rapports enregistrés, des échantillons beaucoup plus grands et souvent multi-laboratoires, des données ouvertes et une distinction plus claire entre réplication directe et conceptuelle, tandis que la critique WEIRD de Henrich, Heine et Norenzayan nous rappelle que même un résultat robuste peut ne pas se généraliser au-delà des populations étroites habituellement testées. La conséquence pratique est une norme plus exigeante pour accorder sa confiance, selon laquelle un résultat gagne notre adhésion non pas à partir d'un seul résultat significatif, mais à partir du préenregistrement, d'une puissance suffisante, d'une réplication indépendante et de la preuve qu'il tient chez des êtres humains divers.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free