A crise de replicação: por que tanta psicologia não se sustentou

Em agosto de 2015, uma equipe de 270 pesquisadores liderada pelo psicólogo Brian Nosek publicou um único número que caiu sobre a disciplina como um veredito. Trabalhando sob a bandeira da Open Science Collaboration, eles haviam pegado 100 estudos de três importantes revistas de psicologia, refeito cada um deles com o máximo de cuidado possível e contabilizado os resultados. Cerca de 36 por cento deles replicaram. Em outras palavras, quando os cientistas arregaçaram as mangas e rodaram novamente esses experimentos consagrados, quase dois em cada três não conseguiram reproduzir o efeito original.

Os estudos não eram obscuros. Muitos haviam sido citados centenas de vezes, ensinados em cursos de graduação e incorporados a livros populares sobre a mente. Alguns deram origem a programas inteiros de pesquisa. Vê-los evaporar sob um reteste cuidadoso foi, para uma geração de psicólogos, ao mesmo tempo alarmante e esclarecedor. O número não provou que a psicologia era uma farsa, mas forçou uma pergunta incômoda que a área conseguira evitar por décadas: quanto daquilo que pensamos saber sobre o comportamento humano é de fato verdade?

Um acerto de contas que começou com um único projeto cuidadoso

O projeto que desencadeou esse acerto de contas foi deliberadamente pouco dramático em seu desenho, e essa contenção é parte do motivo pelo qual ele teve tanto peso. A Open Science Collaboration selecionou seus 100 estudos de três revistas respeitadas, todas publicadas em 2008, abrangendo a psicologia social e a cognitiva. Para cada estudo, uma equipe conduziu uma replicação direta, ou seja, seguiu o procedimento original o mais fielmente possível, muitas vezes em consulta com os autores originais, e, de modo crucial, usou amostras substancialmente maiores do que as originais. Depois, tabularam cada resultado de forma aberta, compartilhando materiais e dados para que qualquer pessoa pudesse conferir o trabalho.

Essa transparência foi tão importante quanto a estatística que virou manchete. O objetivo não era emboscar pesquisadores individualmente, mas fazer um inventário honesto da literatura publicada. Por diversas medidas, o quadro era preocupante. Onde os estudos originais relatavam um efeito, as replicações tendiam a encontrar efeitos que eram, em média, cerca de metade do tamanho, e muitos não eram estatisticamente distinguíveis de zero. Os efeitos da psicologia cognitiva, que muitas vezes envolve tarefas laboratoriais mais limpas, se sustentaram melhor do que os efeitos da psicologia social, que estuda comportamentos mais confusos e dependentes do contexto. Nada disso veio de um adversário externo e hostil. Veio da própria área examinando a si mesma com as ferramentas em que ela já confiava.

As descobertas famosas que desmoronaram em silêncio

Algumas das baixas foram achados que circulavam havia anos como fato consolidado, do tipo repetido com confiança em aulas e palestras do TED. Três deles, em particular, tornaram-se símbolos da crise.

O primeiro foi o priming social, a ideia de que pistas sutis e despercebidas podem remodelar o comportamento de maneiras surpreendentemente intensas. Um celebrado estudo pioneiro afirmava que voluntários expostos a palavras associadas à velhice caminhavam mais devagar pelo corredor em seguida. Quando laboratórios independentes tentaram reproduzir esse resultado com os controles adequados, o efeito se mostrou esquivo. O segundo foi a depleção do ego, a proposta de que a força de vontade recorre a um recurso limitado que se esgota, de modo que exercer autocontrole em uma tarefa deixaria você mais fraco na seguinte. Havia uma vasta literatura de apoio, mas um grande esforço de replicação coordenado e pré-registrado em vários laboratórios encontrou pouco ou nenhum efeito. O terceiro foi a pose de poder, a alegação de que ficar em uma postura expansiva e confiante por alguns minutos eleva a testosterona, reduz o cortisol, hormônio do estresse, e faz as pessoas se comportarem com mais ousadia. As alegações hormonais e comportamentais não sobreviveram a um reteste cuidadoso, e uma das autoras originais acabou se afastando delas de forma pública.

Vale ser preciso. Uma replicação fracassada nem sempre significa que o efeito original seja inexistente; pode significar que o efeito é menor, mais frágil ou mais dependente de condições do que se acreditava inicialmente. Mas, quando um achado não pode ser reproduzido de forma confiável por pesquisadores competentes que seguem a mesma receita, sua pretensão de ser conhecimento estabelecido se desfaz, por mais famoso que tenha sido um dia.

A aritmética por trás do colapso

Por que tanta pesquisa acabou se revelando tão frágil? Parte da resposta é uma aritmética pouco glamorosa. Durante a maior parte do século XX, um experimento típico de psicologia usava algo como vinte a quarenta participantes por condição. Isso parece razoável até você considerar o tamanho dos efeitos que os psicólogos realmente estudam. O comportamento humano é influenciado por um emaranhado enorme de causas, então o efeito de qualquer manipulação isolada costuma ser de pequeno a médio. Detectar de forma confiável um efeito genuinamente pequeno exige muito mais do que quarenta pessoas; pode exigir centenas.

O conceito relevante é o poder estatístico, a probabilidade de que um estudo detecte um efeito real quando ele de fato existe. Estudos subpotentes não são apenas menos sensíveis; eles são ativamente enganosos. Quando um estudo pequeno e subpotente ultrapassa o limiar da significância estatística, o efeito que ele relata costuma ser inflado, porque só um resultado excepcionalmente grande (e em parte fruto de sorte) poderia ter alcançado significância com tão poucos participantes. A literatura, portanto, foi se enchendo de tamanhos de efeito que pareciam impressionantes, mas que eram, em parte, miragens estatísticas. A crise já estava embutida antes de qualquer mau comportamento, simplesmente porque as amostras eram pequenas demais para sustentar as conclusões que se tirava delas.

Como pesquisadores honestos enganaram a si mesmos

O problema mais profundo, porém, não era a aritmética ruim, mas a flexibilidade silenciosa escondida dentro da prática comum de pesquisa. Os softwares estatísticos modernos tornam trivialmente fácil rodar dezenas de análises sobre o mesmo conjunto de dados, e o pesquisador raramente decide cada detalhe de antemão. Os pontos discrepantes devem ser removidos, e a partir de qual corte? Você deve controlar por idade, por gênero ou por humor? Quais dos vários itens de um questionário contam como desfecho? Cada uma dessas escolhas é defensável por si só, mas, juntas, elas criam o que o estatístico Andrew Gelman chamou de jardim dos caminhos que se bifurcam, um conjunto ramificado de decisões analíticas em que algum caminho quase sempre leva a um resultado significativo.

Quando os pesquisadores tentam conscientemente uma análise atrás da outra e relatam apenas as que alcançam significância, a prática se chama p-hacking, e ela infla a taxa de falsos positivos muito além dos 5 por cento nominais que o teste de significância deveria garantir. A parte perturbadora é que você não precisa ser desonesto para fazer isso. Um cientista genuinamente convencido de que sua hipótese está correta vai continuar ajustando até os dados cooperarem, e então esquece os becos sem saída. O artigo publicado apresenta uma história limpa e confiante, mas a literatura construída a partir de muitos artigos assim não é o que parece. A confiabilidade relatada é uma ilusão produzida por todas as análises que foram rodadas e nunca mencionadas.

Os incentivos que recompensaram achados frágeis

Esses hábitos individuais foram amplificados pela estrutura de todo o empreendimento. As revistas preferem fortemente publicar resultados positivos, os estudos que encontram um efeito, em vez de resultados nulos, os estudos que não encontram nada. Isso é o viés de publicação, e todo pesquisador sabe que ele molda sua carreira. Uma gaveta cheia de achados nulos não consegue um emprego, um financiamento ou uma estabilidade no cargo, então os resultados nulos desaparecem em silêncio enquanto os positivos afortunados vão para a impressão. O registro publicado acaba enviesado em direção a achados que podem ter sido obra do acaso, porque os fracassos que os equilibrariam nunca chegaram a ser impressos.

O viés de publicação também estimula uma distorção mais sutil conhecida como HARKing, sigla em inglês para "formular hipóteses depois de conhecer os resultados". A rigor, uma hipótese é uma previsão feita antes de você ver os dados, e uma previsão confirmada é impressionante justamente porque você se comprometeu com ela antecipadamente. O HARKing inverte a ordem: você roda o estudo, vê o que apareceu e então escreve o artigo como se tivesse previsto aquilo o tempo todo. O resultado se lê como uma confirmação limpa de uma ideia ousada, quando na verdade é a descrição de qualquer ruído que por acaso surgiu. Combine estudos subpotentes, análise flexível, a gaveta dos resultados nulos sumidos e hipóteses ajustadas a posteriori, e você terá uma máquina quase desenhada para fabricar achados que não vão replicar.

As reformas que estão recompondo a área

A parte animadora desta história é que a psicologia não respondeu com negação. Respondeu com reforma, e as reformas miram os mecanismos diretamente, em vez de repreender indivíduos. A pedra angular é o pré-registro, um compromisso público e datado com sua hipótese, seus métodos e seu plano exato de análise, publicado antes de você coletar qualquer dado. É a correção estrutural mais simples disponível, e é poderosa porque traça uma linha nítida entre previsões e descobertas. Uma vez que seu plano de análise está travado por escrito, você não pode fazer p-hacking discretamente pelo jardim dos caminhos que se bifurcam, e não pode fazer HARKing, porque todos podem ver o que você de fato previu.

Uma extensão mais ambiciosa é o relatório registrado. Aqui, uma revista avalia e aceita provisoriamente um estudo com base na qualidade de sua pergunta e de seus métodos antes que qualquer dado exista, e se compromete a publicar os resultados quer eles saiam positivos quer nulos. Essa única mudança ataca o viés de publicação pela raiz, porque a aceitação deixa de depender da obtenção de um resultado empolgante. Ao lado disso, a área adotou amostras substancialmente maiores, muitas vezes reunindo participantes de vários laboratórios para que os efeitos possam ser medidos com a precisão que os estudos pequenos nunca tiveram, junto com dados abertos e materiais abertos, para que qualquer pessoa possa escrutinar e rerodar o trabalho.

A própria replicação também foi esclarecida como um ofício com duas tarefas distintas. Uma replicação direta repete o procedimento original o mais fielmente possível para testar se o efeito original aparece em uma nova amostra; ela pergunta: esse resultado específico aconteceu por acaso? Uma replicação conceitual testa a mesma hipótese subjacente usando métodos diferentes; ela pergunta: a ideia mais ampla é sólida mesmo que o experimento específico tenha sido imperfeito? Ambas são valiosas, mas respondem a perguntas diferentes, e uma replicação conceitual nunca pode substituir a prestação de contas básica de uma replicação direta.

O que ainda não se generaliza mesmo quando replica

Mesmo um achado que sobrevive à replicação direta pode carregar um problema separado e mais silencioso. Em 2010, os pesquisadores Joseph Henrich, Steven Heine e Ara Norenzayan apontaram que a esmagadora maioria dos participantes da psicologia provinha de sociedades que são Ocidentais, Educadas, Industrializadas, Ricas e Democráticas, uma população que rotularam com a sigla em inglês WEIRD. Esses participantes, muitas vezes universitários de graduação em um punhado de países ricos, mostram-se atípicos em muitas medidas psicológicas, da percepção visual ao raciocínio moral e às noções de self. Um resultado que replica perfeitamente em amostras de estudantes universitários americanos ainda pode nos dizer pouco sobre a humanidade em geral. Essa preocupação com a generalização se soma à da replicação: não basta que um achado seja real no laboratório onde foi encontrado; ele também precisa se sustentar para além da fatia estreita de pessoas que por acaso foram estudadas.

Em conjunto, essas lições mudaram o modo como um leitor cuidadoso deveria abordar qualquer alegação psicológica. A velha pergunta era simplesmente se um resultado era estatisticamente significativo. A pergunta contemporânea é mais rica e mais cética. O estudo foi pré-registrado, de modo que suas hipóteses e análises foram fixadas de antemão? A amostra era grande o suficiente para detectar o efeito que ela alega? Uma equipe independente o confirmou por meio de replicação direta? E ele se sustenta em pessoas que não se parecem com universitários de democracias ricas? Um único valor de p significativo, antes tratado como um selo de verdade, hoje é corretamente lido como o início de uma investigação, e não o fim dela.

Principais conclusões

O projeto da Open Science Collaboration de 2015, no qual 270 pesquisadores rerodaram 100 estudos publicados e descobriram que apenas cerca de 36 por cento replicaram, desencadeou um acerto de contas em toda a disciplina, cujas causas eram estruturais, e não obra de uns poucos malfeitores. Efeitos de grande destaque como o priming social, a depleção do ego e a pose de poder fracassaram sob reteste cuidadoso porque o maquinário de pesquisa subjacente era falho: amostras de vinte a quarenta participantes eram pequenas demais (com poder estatístico baixo demais) para medir de forma confiável os pequenos efeitos que a psicologia estuda, a flexibilidade da análise moderna permitia o p-hacking pelo jardim dos caminhos que se bifurcam, o viés de publicação enterrava os resultados nulos e o HARKing disfarçava descobertas a posteriori como previsões confirmadas. A resposta da área tem sido uma reforma genuína, voltada diretamente para esses mecanismos, a saber: o pré-registro, os relatórios registrados, amostras muito maiores e muitas vezes envolvendo vários laboratórios, dados abertos e uma distinção mais clara entre replicação direta e conceitual, enquanto a crítica WEIRD de Henrich, Heine e Norenzayan nos lembra que mesmo um achado robusto pode não se generalizar para além das populações estreitas que costumam ser testadas. O desdobramento prático é um padrão mais exigente para a crença, sob o qual um achado conquista confiança não a partir de um único resultado significativo, mas a partir de pré-registro, poder adequado, replicação independente e evidências de que ele se sustenta entre seres humanos diversos.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free