Die Replikationskrise: Warum so viel Psychologie der Überprüfung nicht standhielt

Im August 2015 veröffentlichte ein Team aus 270 Forschenden unter der Leitung des Psychologen Brian Nosek eine einzige Zahl, die auf das Fachgebiet wie ein Urteil niederging. Unter dem Banner der Open Science Collaboration hatten sie 100 Studien aus drei führenden psychologischen Fachzeitschriften herangezogen, jede einzelne so sorgfältig wie möglich wiederholt und die Ergebnisse zusammengezählt. Rund 36 Prozent von ihnen ließen sich replizieren. Schlicht gesagt: Als die Wissenschaftler die Ärmel hochkrempelten und diese bekannten Experimente erneut durchführten, brachten fast zwei von drei nicht den ursprünglichen Effekt hervor.

Die Studien waren nicht obskur. Viele waren Hunderte Male zitiert worden, wurden in Bachelor-Kursen gelehrt und fanden Eingang in populäre Bücher über den menschlichen Geist. Manche hatten ganze Forschungsprogramme angestoßen. Mitanzusehen, wie sie unter sorgfältiger erneuter Prüfung verdampften, war für eine Generation von Psychologen zugleich beunruhigend und klärend. Die Zahl bewies nicht, dass die Psychologie Schwindel sei, aber sie erzwang eine unbequeme Frage, der das Fach jahrzehntelang hatte ausweichen können: Wie viel von dem, was wir über menschliches Verhalten zu wissen glauben, ist tatsächlich wahr?

Eine Abrechnung, die mit einem einzigen sorgfältigen Projekt begann

Das Projekt, das die Abrechnung auslöste, war in seiner Anlage bewusst undramatisch, und diese Zurückhaltung ist Teil dessen, warum es Gewicht hatte. Die Open Science Collaboration wählte ihre 100 Studien aus drei angesehenen Fachzeitschriften, allesamt 2008 erschienen, die sich über die Sozial- und die Kognitionspsychologie erstreckten. Für jede Studie führte ein Team eine direkte Replikation durch, das heißt, sie folgten der ursprünglichen Prozedur so getreu wie möglich, oft in Absprache mit den Originalautoren, und entscheidend war, dass sie Stichproben verwendeten, die deutlich größer waren als die ursprünglichen. Anschließend führten sie jedes Ergebnis offen auf und teilten Materialien und Daten, sodass jeder die Arbeit überprüfen konnte.

Diese Transparenz war ebenso wichtig wie die schlagzeilenträchtige Statistik. Es ging nicht darum, einzelne Forschende aus dem Hinterhalt anzugreifen, sondern eine ehrliche Bestandsaufnahme der veröffentlichten Literatur zu machen. Nach mehreren Maßstäben war das Bild ernüchternd. Wo die Originalstudien einen Effekt berichteten, fanden die Replikationen tendenziell Effekte, die im Durchschnitt etwa halb so groß waren, und viele ließen sich statistisch nicht von null unterscheiden. Effekte in der Kognitionspsychologie, die häufig sauberere Laboraufgaben umfasst, hielten besser stand als Effekte in der Sozialpsychologie, die unordentlicheres und stärker kontextabhängiges Verhalten untersucht. Nichts davon kam von einem feindseligen Außenseiter. Es kam daher, dass das Fach sich selbst mit den Werkzeugen prüfte, denen es ohnehin schon vertraute.

Die berühmten Befunde, die sich klammheimlich auflösten

Manche der Opfer waren Befunde, die jahrelang als gesicherte Tatsache kursiert hatten, die Sorte, die in Vorlesungen und TED-Talks selbstbewusst wiederholt wird. Drei wurden im Besonderen zu Sinnbildern der Krise.

Das erste war das soziale Priming, die Vorstellung, dass subtile, unbemerkte Reize das Verhalten auf überraschend große Weise umformen können. Eine gefeierte frühe Studie behauptete, dass Versuchspersonen, die Wörtern in Verbindung mit dem Alter ausgesetzt waren, anschließend langsamer den Flur entlanggingen. Als unabhängige Labore versuchten, dieses Ergebnis mit angemessenen Kontrollen zu reproduzieren, erwies sich der Effekt als unfassbar. Das zweite war die Ego-Depletion, die These, dass Willenskraft aus einer begrenzten Ressource schöpft, die sich verbraucht, sodass Selbstbeherrschung bei einer Aufgabe einen bei der nächsten schwächer zurücklässt. Sie verfügte über eine umfangreiche stützende Literatur, doch eine große, koordinierte, präregistrierte Replikationsanstrengung über viele Labore hinweg fand kaum oder gar keinen Effekt. Das dritte war das Power Posing, die Behauptung, dass das Einnehmen einer ausladenden, selbstbewussten Haltung für ein paar Minuten den Testosteronspiegel hebt, das Stresshormon Cortisol senkt und Menschen dazu bringt, sich kühner zu verhalten. Die hormonellen und verhaltensbezogenen Behauptungen überlebten die sorgfältige erneute Prüfung nicht, und eine der Originalautorinnen rückte schließlich öffentlich von ihnen ab.

Es lohnt sich, genau zu sein. Eine gescheiterte Replikation bedeutet nicht immer, dass der ursprüngliche Effekt nicht existiert; sie kann bedeuten, dass der Effekt kleiner, fragiler oder stärker von Bedingungen abhängig ist, als zunächst angenommen. Aber wenn ein Befund von kompetenten Forschenden, die demselben Rezept folgen, nicht zuverlässig reproduziert werden kann, ist sein Anspruch, gesichertes Wissen zu sein, dahin, so berühmt er einst auch gewesen sein mag.

Die Rechnung hinter dem Zusammenbruch

Warum erwies sich so viel Forschung als so brüchig? Ein Teil der Antwort ist eine wenig glanzvolle Rechnerei. Während des größten Teils des zwanzigsten Jahrhunderts nutzte ein typisches psychologisches Experiment etwa zwanzig bis vierzig Teilnehmende pro Bedingung. Das klingt vernünftig, bis man die Größe der Effekte bedenkt, die Psychologen tatsächlich untersuchen. Menschliches Verhalten wird von einem enormen Geflecht aus Ursachen beeinflusst, sodass der Effekt einer einzelnen Manipulation gewöhnlich klein bis mittelgroß ist. Einen wirklich kleinen Effekt zuverlässig nachzuweisen, erfordert weit mehr als vierzig Personen; es können Hunderte nötig sein.

Der einschlägige Begriff ist die statistische Power, also die Wahrscheinlichkeit, dass eine Studie einen realen Effekt entdeckt, wenn er wirklich existiert. Unterpowerte Studien sind nicht nur weniger empfindlich; sie sind aktiv irreführend. Wenn eine kleine, unterpowerte Studie tatsächlich die Schwelle der statistischen Signifikanz überschreitet, ist der von ihr berichtete Effekt oft überhöht, weil nur ein ungewöhnlich großes (und teils glückliches) Ergebnis mit so wenigen Teilnehmenden Signifikanz hätte erreichen können. Die Literatur füllte sich deshalb mit Effektstärken, die beeindruckend aussahen, aber zum Teil statistische Trugbilder waren. Die Krise war eingebaut, bevor sich überhaupt jemand schlecht verhielt, schlicht weil die Stichproben zu klein waren, um die aus ihnen gezogenen Schlüsse zu tragen.

Wie sich ehrliche Forschende selbst täuschten

Das tiefer liegende Problem war jedoch nicht schlechte Rechnerei, sondern die stille Flexibilität, die in der ganz gewöhnlichen Forschungspraxis verborgen liegt. Moderne Statistiksoftware macht es spielend leicht, Dutzende Analysen am selben Datensatz durchzuführen, und ein Forscher legt selten jedes Detail im Voraus fest. Sollten Ausreißer entfernt werden, und ab welcher Grenze? Sollte man für Alter, Geschlecht oder Stimmung kontrollieren? Welche von mehreren Fragebogen-Items zählen als Ergebnis? Jede dieser Entscheidungen ist für sich genommen vertretbar, doch zusammen erzeugen sie das, was der Statistiker Andrew Gelman den Garten der sich verzweigenden Pfade nannte, einen sich verästelnden Satz analytischer Entscheidungen, bei dem fast immer irgendein Pfad zu einem signifikanten Ergebnis führt.

Wenn Forschende bewusst Analyse um Analyse ausprobieren und nur die berichten, die Signifikanz erreichen, nennt man die Praxis p-Hacking, und sie treibt die Rate falsch positiver Ergebnisse weit über die nominellen 5 Prozent hinaus, die der Signifikanztest eigentlich garantieren soll. Das Beunruhigende ist, dass man nicht unehrlich sein muss, um es zu tun. Ein Wissenschaftler, der aufrichtig von der Richtigkeit seiner Hypothese überzeugt ist, wird so lange nachjustieren, bis die Daten mitspielen, und dann die Sackgassen vergessen. Die veröffentlichte Arbeit präsentiert eine saubere, selbstbewusste Geschichte, aber die aus vielen solcher Arbeiten errichtete Literatur ist nicht das, was sie zu sein scheint. Die berichtete Verlässlichkeit ist eine Illusion, hervorgebracht von all den Analysen, die durchgeführt und nie erwähnt wurden.

Die Anreize, die fragile Befunde belohnten

Diese individuellen Gewohnheiten wurden durch die Struktur des gesamten Unterfangens verstärkt. Fachzeitschriften ziehen es stark vor, positive Ergebnisse zu veröffentlichen, also die Studien, die einen Effekt finden, gegenüber Nullbefunden, also den Studien, die nichts finden. Das ist der Publikationsbias, und jeder Forschende weiß, dass er die eigene Karriere prägt. Eine Schublade voller Nullbefunde verschafft einem keine Anstellung, keine Förderung und keine Festanstellung, also verschwinden Nullbefunde klammheimlich, während die glücklichen positiven gedruckt werden. Der veröffentlichte Bestand gerät am Ende zugunsten von Befunden schief, die womöglich Zufälle waren, weil die Misserfolge, die sie ausgeglichen hätten, nie in Druck gingen.

Der Publikationsbias begünstigt außerdem eine subtilere Verzerrung, bekannt als HARKing, was für hypothesizing after the results are known steht, also Hypothesenbildung, nachdem die Ergebnisse bekannt sind. Korrekt gesehen ist eine Hypothese eine Vorhersage, die getroffen wird, bevor man die Daten sieht, und eine bestätigte Vorhersage ist gerade deshalb beeindruckend, weil man sich im Voraus festgelegt hat. HARKing kehrt die Reihenfolge um: Man führt die Studie durch, sieht, was herauskam, und schreibt dann die Arbeit so, als hätte man das von Anfang an vorhergesagt. Das Ergebnis liest sich wie eine saubere Bestätigung einer kühnen Idee, obwohl es in Wahrheit eine Beschreibung dessen ist, welches Rauschen sich gerade zeigte. Kombiniert man unterpowerte Studien, flexible Analyse, die Schublade verschwundener Nullbefunde und nachträglich angepasste Hypothesen, hat man eine Maschine, die geradezu darauf ausgelegt ist, Befunde herzustellen, die sich nicht replizieren lassen.

Die Reformen, die das Fach wieder zusammensetzen

Der ermutigende Teil dieser Geschichte ist, dass die Psychologie nicht mit Leugnen reagierte. Sie reagierte mit Reform, und die Reformen zielen direkt auf die Mechanismen, statt Einzelne zu schelten. Der Eckpfeiler ist die Präregistrierung, eine öffentliche, mit Zeitstempel versehene Festlegung auf die eigene Hypothese, die eigenen Methoden und den exakten Analyseplan, veröffentlicht, bevor man überhaupt Daten erhebt. Sie ist die einfachste verfügbare strukturelle Korrektur, und sie ist mächtig, weil sie eine harte Grenze zwischen Vorhersagen und Entdeckungen zieht. Sobald der Analyseplan schriftlich festgelegt ist, kann man sich nicht mehr klammheimlich durch den Garten der sich verzweigenden Pfade p-hacken, und man kann nicht HARKen, weil jeder sehen kann, was man tatsächlich vorhergesagt hat.

Eine ambitioniertere Erweiterung ist der Registered Report. Hier prüft und akzeptiert eine Fachzeitschrift eine Studie vorläufig auf Grundlage der Qualität ihrer Fragestellung und Methoden, bevor irgendwelche Daten existieren, und verpflichtet sich, die Ergebnisse zu veröffentlichen, ob sie positiv oder null ausfallen. Diese eine Veränderung greift den Publikationsbias an der Wurzel an, weil die Annahme nicht mehr davon abhängt, ein aufregendes Ergebnis zu erzielen. Daneben hat das Fach deutlich größere Stichproben übernommen, oft durch das Zusammenlegen von Teilnehmenden über viele Labore hinweg, sodass Effekte mit der Präzision gemessen werden können, die kleine Studien nie hatten, zusammen mit offenen Daten und offenen Materialien, sodass jeder die Arbeit prüfen und erneut durchführen kann.

Die Replikation selbst wurde ebenfalls als Handwerk mit zwei verschiedenen Aufgaben geklärt. Eine direkte Replikation wiederholt die ursprüngliche Prozedur so getreu wie möglich, um zu prüfen, ob der ursprüngliche Effekt in einer neuen Stichprobe auftaucht; sie fragt: Ist dieses spezifische Ergebnis durch Zufall zustande gekommen? Eine konzeptuelle Replikation prüft dieselbe zugrunde liegende Hypothese mit anderen Methoden; sie fragt: Ist die umfassendere Idee tragfähig, selbst wenn das einzelne Experiment unvollkommen war? Beide sind wertvoll, doch sie beantworten verschiedene Fragen, und eine konzeptuelle Replikation kann niemals die grundlegende Rechenschaft einer direkten ersetzen.

Was sich selbst dann nicht verallgemeinern lässt, wenn es repliziert

Selbst ein Befund, der die direkte Replikation übersteht, kann ein gesondertes und stilleres Problem mit sich tragen. 2010 wiesen die Forscher Joseph Henrich, Steven Heine und Ara Norenzayan darauf hin, dass die überwältigende Mehrheit der Versuchspersonen der Psychologie aus Gesellschaften stammte, die westlich, gebildet, industrialisiert, reich und demokratisch sind, eine Population, die sie mit dem Akronym WEIRD versahen (für Western, Educated, Industrialized, Rich, Democratic). Diese Teilnehmenden, oft Universitätsstudierende in einer Handvoll wohlhabender Länder, erweisen sich auf vielen psychologischen Maßen als ungewöhnlich, von der visuellen Wahrnehmung über das moralische Urteilen bis hin zu Vorstellungen vom Selbst. Ein Ergebnis, das sich in Stichproben amerikanischer College-Studenten perfekt repliziert, sagt uns über die Menschheit im Großen womöglich dennoch wenig. Diese Bedenken hinsichtlich der Verallgemeinerbarkeit verstärken die der Replikation: Es reicht nicht, dass ein Befund in dem Labor real ist, in dem er gefunden wurde; er muss auch über den schmalen Ausschnitt von Menschen hinaus gelten, die zufällig untersucht wurden.

Zusammengenommen haben diese Lehren verändert, wie ein sorgfältiger Leser an jede psychologische Behauptung herangehen sollte. Die alte Frage war schlicht, ob ein Ergebnis statistisch signifikant war. Die heutige Frage ist reichhaltiger und skeptischer. War die Studie präregistriert, sodass ihre Hypothesen und Analysen im Voraus festgelegt waren? War die Stichprobe groß genug, um den Effekt zu entdecken, den sie behauptet? Hat ein unabhängiges Team sie durch direkte Replikation bestätigt? Und gilt sie bei Menschen, die nicht den Studierenden in wohlhabenden Demokratien gleichen? Ein einzelner signifikanter p-Wert, einst als Siegel der Wahrheit behandelt, wird heute zu Recht als der Beginn einer Untersuchung gelesen und nicht als ihr Ende.

Die wichtigsten Erkenntnisse

Das Projekt der Open Science Collaboration von 2015, bei dem 270 Forschende 100 veröffentlichte Studien erneut durchführten und fanden, dass sich nur etwa 36 Prozent replizieren ließen, löste eine fachweite Abrechnung aus, deren Ursachen strukturell waren und nicht das Werk weniger schwarzer Schafe. Prominente Effekte wie soziales Priming, Ego-Depletion und Power Posing scheiterten unter sorgfältiger erneuter Prüfung, weil die zugrunde liegende Forschungsmaschinerie fehlerhaft war: Stichproben von zwanzig bis vierzig Teilnehmenden waren viel zu klein (zu gering in der statistischen Power), um die kleinen Effekte, die die Psychologie untersucht, zuverlässig zu messen, die Flexibilität moderner Analyse erlaubte p-Hacking durch den Garten der sich verzweigenden Pfade, der Publikationsbias begrub Nullbefunde, und HARKing verkleidete nachträgliche Entdeckungen als bestätigte Vorhersagen. Die Reaktion des Fachs war echte Reform, die genau auf diese Mechanismen abzielte, nämlich Präregistrierung, Registered Reports, viel größere und oft Mehrlabor-Stichproben, offene Daten und eine klarere Unterscheidung zwischen direkter und konzeptueller Replikation, während die WEIRD-Kritik von Henrich, Heine und Norenzayan uns daran erinnert, dass selbst ein robuster Befund sich nicht über die schmalen, üblicherweise untersuchten Populationen hinaus verallgemeinern lässt. Das praktische Fazit ist ein anspruchsvollerer Maßstab für Überzeugung, unter dem ein Befund Vertrauen nicht aus einem einzelnen signifikanten Ergebnis gewinnt, sondern aus Präregistrierung, ausreichender Power, unabhängiger Replikation und dem Nachweis, dass er über vielfältige Menschen hinweg gilt.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free