La crisi della replicabilità: perché gran parte della psicologia non ha retto

Nell'agosto del 2015, un gruppo di 270 ricercatori guidato dallo psicologo Brian Nosek pubblicò un singolo numero che si abbatté sulla disciplina come un verdetto. Sotto l'insegna della Open Science Collaboration, avevano preso 100 studi da tre delle principali riviste di psicologia, li avevano rifatti uno per uno con la massima cura possibile e avevano sommato i risultati. Circa il 36 percento di essi venne replicato. In parole povere, quando gli scienziati si rimboccarono le maniche e rieseguirono questi celebri esperimenti, quasi due su tre non riuscirono a produrre l'effetto originale.

Non si trattava di studi oscuri. Molti erano stati citati centinaia di volte, insegnati nei corsi universitari di base e ripresi in libri divulgativi sulla mente. Alcuni avevano dato origine a interi programmi di ricerca. Vederli svanire sotto un attento riesame fu, per una generazione di psicologi, tanto allarmante quanto chiarificatore. Quel numero non dimostrava che la psicologia fosse una finzione, ma costringeva a una domanda scomoda che la disciplina era riuscita a evitare per decenni: quanto di ciò che pensiamo di sapere sul comportamento umano è davvero vero?

Una resa dei conti nata da un singolo progetto rigoroso

Il progetto che innescò la resa dei conti era deliberatamente poco spettacolare nel suo impianto, e proprio quella sobrietà è parte del motivo per cui contò così tanto. La Open Science Collaboration selezionò i suoi 100 studi da tre riviste autorevoli, tutti pubblicati nel 2008, che spaziavano dalla psicologia sociale a quella cognitiva. Per ciascuno studio, un gruppo realizzò una replica diretta, ossia seguì la procedura originale nel modo più fedele possibile, spesso consultandosi con gli autori originali, e soprattutto utilizzò campioni notevolmente più ampi di quelli iniziali. Poi tabularono ogni risultato alla luce del sole, condividendo materiali e dati in modo che chiunque potesse verificare il lavoro.

Quella trasparenza fu importante quanto la statistica di copertina. L'obiettivo non era tendere un'imboscata ai singoli ricercatori, ma fare un inventario onesto della letteratura pubblicata. Sotto diversi profili, il quadro era sconfortante. Laddove gli studi originali riportavano un effetto, le repliche tendevano a trovare effetti che in media erano grandi circa la metà, e molti non erano statisticamente distinguibili dallo zero. Gli effetti nella psicologia cognitiva, che spesso si basa su compiti di laboratorio più puliti, ressero meglio degli effetti nella psicologia sociale, che studia comportamenti più disordinati e dipendenti dal contesto. Nulla di tutto ciò venne da un avversario esterno e ostile. Venne dalla disciplina che esaminava se stessa con gli strumenti di cui la disciplina già si fidava.

Le scoperte famose che si sgretolarono in silenzio

Alcune delle vittime furono risultati che per anni avevano circolato come fatti acquisiti, di quelli ripetuti con sicurezza nelle lezioni e nei TED talk. Tre in particolare divennero emblemi della crisi.

Il primo fu il priming sociale, l'idea che indizi sottili e impercettibili possano rimodellare il comportamento in modi sorprendentemente marcati. Un celebre studio iniziale sosteneva che i volontari esposti a parole associate alla vecchiaia camminassero poi più lentamente lungo il corridoio. Quando laboratori indipendenti tentarono di riprodurre quel risultato con controlli adeguati, l'effetto si rivelò sfuggente. Il secondo fu l'esaurimento dell'io, la proposta secondo cui la forza di volontà attinge a una risorsa limitata che si consuma, cosicché esercitare l'autocontrollo in un compito ti lascia più debole nel successivo. Aveva alle spalle una vastissima letteratura a sostegno, eppure un ampio sforzo di replica, coordinato e pre-registrato in numerosi laboratori, trovò un effetto scarso o nullo. Il terzo fu il power posing, l'affermazione secondo cui assumere per un paio di minuti una postura ampia e sicura aumenti il testosterone, abbassi il cortisolo, l'ormone dello stress, e renda le persone più audaci nel comportamento. Le affermazioni ormonali e comportamentali non sopravvissero a un attento riesame, e una delle autrici originali finì per prendere pubblicamente le distanze da esse.

Vale la pena essere precisi. Una replica fallita non significa sempre che l'effetto originale sia inesistente; può significare che l'effetto è più piccolo, più fragile o più dipendente dalle condizioni di quanto si credesse all'inizio. Ma quando un risultato non può essere riprodotto in modo affidabile da ricercatori competenti che seguono la stessa ricetta, la sua pretesa di essere conoscenza consolidata viene meno, per quanto famoso fosse un tempo.

L'aritmetica che stava sotto il crollo

Perché tanta ricerca si è rivelata così fragile? Parte della risposta è una poco affascinante questione di aritmetica. Per gran parte del Novecento, un tipico esperimento di psicologia impiegava qualcosa come venti o quaranta partecipanti per condizione. Sembra ragionevole, finché non si considera l'entità degli effetti che gli psicologi studiano davvero. Il comportamento umano è influenzato da un enorme groviglio di cause, perciò l'effetto di una qualsiasi singola manipolazione è di solito da piccolo a medio. Rilevare in modo affidabile un effetto autenticamente piccolo richiede molto più di quaranta persone; può richiederne centinaia.

Il concetto rilevante è la potenza statistica, la probabilità che uno studio rilevi un effetto reale quando un effetto esiste davvero. Gli studi sottopotenziati non sono solo meno sensibili; sono attivamente fuorvianti. Quando uno studio piccolo e sottopotenziato supera comunque la soglia della significatività statistica, l'effetto che riporta è spesso gonfiato, perché solo un risultato insolitamente grande (e in parte fortunato) avrebbe potuto raggiungere la significatività con così pochi partecipanti. La letteratura si riempì quindi di dimensioni dell'effetto che sembravano impressionanti ma erano, in parte, miraggi statistici. La crisi era già incorporata prima ancora che qualcuno si comportasse male, semplicemente perché i campioni erano troppo piccoli per sostenere le conclusioni che se ne traevano.

Come ricercatori onesti ingannavano se stessi

Il problema più profondo, però, non era la cattiva aritmetica, ma la silenziosa flessibilità nascosta dentro la normale pratica di ricerca. I moderni software statistici rendono incredibilmente facile eseguire decine di analisi sullo stesso insieme di dati, e raramente un ricercatore decide ogni dettaglio in anticipo. I valori anomali vanno rimossi, e con quale soglia? Bisogna controllare per l'età, o il genere, o l'umore? Quale tra i vari item di un questionario conta come esito? Ognuna di queste scelte è di per sé difendibile, ma insieme creano ciò che lo statistico Andrew Gelman chiamò il giardino dei sentieri che si biforcano, un insieme ramificato di decisioni analitiche in cui quasi sempre qualche sentiero conduce a un risultato significativo.

Quando i ricercatori provano consapevolmente un'analisi dopo l'altra e riportano solo quelle che raggiungono la significatività, la pratica si chiama p-hacking, e gonfia il tasso di falsi positivi ben oltre il 5 percento nominale che il test di significatività dovrebbe garantire. La parte inquietante è che non serve essere disonesti per farlo. Uno scienziato genuinamente convinto che la propria ipotesi sia corretta continuerà a fare aggiustamenti finché i dati non collaborano, per poi dimenticare i vicoli ciechi. L'articolo pubblicato presenta una storia pulita e sicura, ma la letteratura costruita su molti articoli del genere non è ciò che sembra. L'affidabilità riportata è un'illusione prodotta da tutte le analisi che furono eseguite e mai menzionate.

Gli incentivi che premiavano i risultati fragili

Queste abitudini individuali venivano amplificate dalla struttura dell'intera impresa. Le riviste preferiscono nettamente pubblicare risultati positivi, gli studi che trovano un effetto, piuttosto che risultati nulli, gli studi che non trovano nulla. Questo è il bias di pubblicazione, e ogni ricercatore sa che plasma la propria carriera. Un cassetto pieno di risultati nulli non ti fa assumere, finanziare o ottenere la cattedra, perciò i risultati nulli scompaiono in silenzio mentre i fortunati positivi vengono stampati. Il registro pubblicato finisce per pendere verso risultati che potrebbero essere stati casuali, perché i fallimenti che li avrebbero bilanciati non sono mai arrivati alla stampa.

Il bias di pubblicazione incoraggia anche una distorsione più sottile nota come HARKing, che sta per formulare ipotesi dopo che i risultati sono noti. In senso proprio, un'ipotesi è una previsione fatta prima di vedere i dati, e una previsione confermata è impressionante proprio perché ti sei impegnato su di essa in anticipo. Lo HARKing inverte l'ordine: esegui lo studio, vedi che cosa è emerso, poi scrivi l'articolo come se l'avessi previsto fin dall'inizio. Il risultato si legge come una pulita conferma di un'idea audace, mentre in verità è la descrizione di qualunque rumore si sia presentato. Combina studi sottopotenziati, analisi flessibile, il cassetto dei risultati nulli svaniti e ipotesi adattate a posteriori, e hai una macchina quasi progettata per fabbricare risultati che non si replicheranno.

Le riforme che stanno rimettendo insieme la disciplina

La parte incoraggiante di questa storia è che la psicologia non ha reagito con la negazione. Ha reagito con la riforma, e le riforme colpiscono direttamente i meccanismi anziché rimproverare i singoli. Il pilastro è la pre-registrazione, un impegno pubblico e con marca temporale sulla tua ipotesi, sui tuoi metodi e sul tuo esatto piano di analisi, depositato prima di raccogliere qualsiasi dato. È la più semplice correzione strutturale disponibile, ed è potente perché traccia una linea netta tra previsioni e scoperte. Una volta che il tuo piano di analisi è messo nero su bianco, non puoi fare p-hacking in sordina attraverso il giardino dei sentieri che si biforcano, e non puoi fare HARKing, perché chiunque può vedere che cosa hai effettivamente previsto.

Un'estensione più ambiziosa è il registered report. Qui una rivista valuta e accetta provvisoriamente uno studio in base alla qualità della sua domanda e dei suoi metodi prima che esista qualsiasi dato, e si impegna a pubblicare i risultati che escano positivi o nulli. Quel singolo cambiamento attacca il bias di pubblicazione alla radice, perché l'accettazione non dipende più dall'ottenere un risultato entusiasmante. Accanto a questi, la disciplina ha adottato campioni sostanzialmente più ampi, spesso mettendo in comune i partecipanti tra molti laboratori in modo da poter misurare gli effetti con la precisione che i piccoli studi non hanno mai avuto, insieme a dati aperti e materiali aperti perché chiunque possa esaminare e rieseguire il lavoro.

Anche la replica stessa è stata chiarita come un mestiere con due compiti distinti. Una replica diretta ripete la procedura originale nel modo più fedele possibile per verificare se l'effetto originale si presenti in un nuovo campione; si chiede: questo specifico risultato è avvenuto per caso? Una replica concettuale verifica la stessa ipotesi di fondo usando metodi diversi; si chiede: l'idea più ampia è solida anche se quel particolare esperimento era imperfetto? Entrambe sono preziose, ma rispondono a domande diverse, e una replica concettuale non potrà mai sostituire la basilare verifica di responsabilità di una replica diretta.

Ciò che comunque non si generalizza anche quando si replica

Persino un risultato che sopravvive a una replica diretta può portare con sé un problema separato e più silenzioso. Nel 2010, i ricercatori Joseph Henrich, Steven Heine e Ara Norenzayan fecero notare che la grande maggioranza dei partecipanti della psicologia proveniva da società che sono occidentali, istruite, industrializzate, ricche e democratiche, una popolazione che etichettarono con l'acronimo WEIRD. Questi partecipanti, spesso studenti universitari di una manciata di paesi ricchi, risultano essere insoliti su molte misure psicologiche, dalla percezione visiva al ragionamento morale fino alle nozioni di sé. Un risultato che si replica alla perfezione in campioni di studenti universitari americani può comunque dirci ben poco sull'umanità nel suo complesso. Questa preoccupazione sulla generalizzabilità si somma a quella sulla replica: non basta che un risultato sia reale nel laboratorio in cui è stato trovato; deve anche reggere oltre la ristretta fetta di persone che si è capitato di studiare.

Prese insieme, queste lezioni hanno cambiato il modo in cui un lettore attento dovrebbe affrontare qualsiasi affermazione psicologica. La vecchia domanda era semplicemente se un risultato fosse statisticamente significativo. La domanda contemporanea è più ricca e più scettica. Lo studio era pre-registrato, in modo che le sue ipotesi e analisi fossero fissate in anticipo? Il campione era abbastanza ampio da rilevare l'effetto che dichiara? Un gruppo indipendente l'ha confermato attraverso una replica diretta? E regge in persone che non assomigliano agli studenti universitari delle democrazie ricche? Un singolo valore p significativo, un tempo trattato come un sigillo di verità, oggi viene giustamente letto come l'inizio di un'indagine anziché la sua fine.

Punti chiave

Il progetto della Open Science Collaboration del 2015, in cui 270 ricercatori rieseguirono 100 studi pubblicati e scoprirono che solo circa il 36 percento si replicava, innescò una resa dei conti che attraversò l'intera disciplina e le cui cause erano strutturali, anziché opera di pochi cattivi attori. Effetti di alto profilo come il priming sociale, l'esaurimento dell'io e il power posing fallirono sotto un attento riesame perché il meccanismo di ricerca sottostante era difettoso: campioni di venti o quaranta partecipanti erano di gran lunga troppo piccoli (con potenza statistica troppo bassa) per misurare in modo affidabile i piccoli effetti che la psicologia studia, la flessibilità dell'analisi moderna consentiva il p-hacking lungo il giardino dei sentieri che si biforcano, il bias di pubblicazione seppelliva i risultati nulli e lo HARKing travestiva scoperte a posteriori da previsioni confermate. La risposta della disciplina è stata una riforma autentica mirata proprio a questi meccanismi, ossia la pre-registrazione, i registered report, campioni molto più ampi e spesso multi-laboratorio, dati aperti e una distinzione più chiara tra replica diretta e concettuale, mentre la critica WEIRD di Henrich, Heine e Norenzayan ci ricorda che persino un risultato robusto può non generalizzarsi oltre le ristrette popolazioni di solito esaminate. La conseguenza pratica è uno standard più esigente per credere a qualcosa, secondo cui un risultato si guadagna la fiducia non da un singolo esito significativo ma dalla pre-registrazione, da una potenza adeguata, da una replica indipendente e dalla prova che regge tra esseri umani diversi.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free