2015年8月、心理学者ブライアン・ノセックが率いる270人の研究者チームが、ひとつの数字を発表した。それは判決のようにこの学問分野へと突きつけられた。オープン・サイエンス・コラボレーションの名のもとに、彼らは一流の心理学誌3誌から100件の研究を選び、それぞれをできるかぎり丁寧にやり直し、結果を集計した。再現できたのはおよそ36パーセント。平たく言えば、科学者たちが腕まくりをしてこれら著名な実験をもう一度走らせたとき、約3分の2はもとの効果を再現できなかったのである。
これらの研究は無名のものではなかった。多くは何百回と引用され、学部の授業で教えられ、心についての一般向けの本にも盛り込まれていた。なかには研究プログラムそのものを生み出したものもあった。それらが丁寧な再検証のもとで蒸発していくのを目の当たりにしたことは、一世代の心理学者にとって、不安をかき立てると同時に視界をひらくものでもあった。この数字は心理学が偽物だと証明したわけではないが、それでもこの分野が何十年も避けてこられた居心地の悪い問いを突きつけた。人間の行動について私たちが知っていると思っていることのうち、いったいどれだけが本当に正しいのか。
ひとつの丁寧なプロジェクトから始まった清算
この清算の引き金となったプロジェクトは、その設計においてあえて劇的さを避けていた。そしてその抑制こそが、これが重要だった理由の一端である。オープン・サイエンス・コラボレーションは、すべて2008年に発表され、社会心理学と認知心理学にまたがる、定評ある3誌から100件の研究を選んだ。それぞれの研究について、チームは直接再現を行った。つまり、もとの手続きをできるかぎり忠実にたどり、しばしばもとの著者と相談しながら、そして決定的に重要な点として、もとの研究よりも実質的に大きいサンプルを用いた。それから彼らはすべての結果を公開の場で集計し、資料とデータを共有して、誰もがその作業を確かめられるようにした。
その透明性は、見出しを飾る統計値そのものと同じくらい重要だった。狙いは個々の研究者を待ち伏せして攻撃することではなく、発表された文献の正直な棚卸しをすることにあった。いくつもの尺度から見て、その光景は厳しいものだった。もとの研究が効果を報告していた場合、再現研究はおおむねその約半分の大きさの効果しか見いださず、しかも多くは統計的にゼロと区別できなかった。よりすっきりした実験室課題を扱うことの多い認知心理学の効果は、より雑然として文脈に左右されやすい行動を扱う社会心理学の効果よりも、よく持ちこたえた。これらはどれも敵対的な部外者から出てきたものではない。この分野が、すでに信頼していた道具を使って、自らを点検したことから生まれたのである。
ひっそりと崩れ去った有名な知見
犠牲となったもののなかには、何年ものあいだ確立された事実として流通していた知見があった。講義やTEDトークで自信たっぷりに繰り返されてきた類のものである。とりわけ3つが、この危機の象徴となった。
ひとつめは社会的プライミングだった。微妙で気づかれないような手がかりが、驚くほど大きく行動をつくり変えうるという考えである。よく知られた初期の研究は、高齢者を連想させる単語に触れたボランティアが、そのあと廊下をよりゆっくり歩いた、と主張した。独立した研究室が適切な統制のもとでその結果を再現しようとしたとき、その効果はとらえどころのないものであることがわかった。ふたつめは自我消耗だった。意志力は使うと減っていく限られた資源に依存しており、ひとつの課題で自制を発揮すると、次の課題ではより弱くなる、という説である。それを支える膨大な文献がありながら、多くの研究室にまたがる大規模で協調的な事前登録済みの再現の試みは、効果をほとんど、あるいはまったく見いださなかった。みっつめはパワーポージングだった。広々とした自信に満ちた姿勢を数分間とると、テストステロンが上がり、ストレスホルモンであるコルチゾールが下がり、人はより大胆にふるまうようになる、という主張である。ホルモンと行動に関する主張は丁寧な再検証を生き延びられず、もとの著者のひとりは最終的に、公の場でそれらから距離を置いた。
正確を期しておく価値がある。再現に失敗したからといって、もとの効果が存在しないことを必ずしも意味するわけではない。それは効果が、最初に信じられていたよりも小さいか、より脆いか、あるいはより条件に依存していることを意味しうる。だが、有能な研究者が同じ手順をたどっても確実に再現できない知見は、かつてどれほど有名であったにせよ、確立された知識であるという主張を失う。
崩壊の根底にある算術
なぜこれほど多くの研究が、これほど脆いものだったとわかったのか。答えの一部は、地味な算術にある。20世紀のほとんどを通じて、典型的な心理学の実験は、条件あたり20人から40人ほどの参加者を用いていた。これは、心理学者が実際に研究している効果の大きさを考えるまでは、妥当に聞こえる。人間の行動は、膨大に絡み合った原因の影響を受けているので、ひとつの操作の効果はたいてい小さいか中程度である。本当に小さい効果を確実に検出するには、40人よりはるかに多くが必要であり、何百人と必要になることもある。
ここで関係してくる概念が統計的検出力、つまり真に効果が存在するときに研究がそれを検出する確率である。検出力の足りない研究は、単に感度が低いだけではない。それは積極的に誤解を招く。小さく検出力の足りない研究が統計的有意性のしきい値をまたいでしまったとき、そこで報告される効果はしばしば水増しされている。なぜなら、これほど少ない参加者で有意に達しえたのは、ふつうよりも大きい(そして一部は運に恵まれた)結果だけだからである。こうして文献は、見栄えのする効果量で満たされていったが、それらは一部、統計的な蜃気楼だった。この危機は、誰かが不正をする前から織り込まれていた。単に、サンプルが、そこから引き出される結論を支えるには小さすぎたからである。
誠実な研究者がいかにして自分自身を欺いたか
しかし、より深い問題は、まずい算術ではなく、ありふれた研究実践のなかにひそむ静かな柔軟性だった。現代の統計ソフトは、同じデータセットに対して何十もの分析を走らせることを、いとも簡単にしてしまう。そして研究者があらゆる詳細をあらかじめ決めていることはまれである。外れ値は除くべきか、除くならどのしきい値で。年齢を、性別を、あるいは気分を統制すべきか。いくつかある質問項目のうち、どれを結果とみなすか。これらの選択は、それぞれ単独で見ればもっともらしい。だが合わさると、統計学者アンドリュー・ゲルマンが枝分かれする小道の庭と呼んだものをつくり出す。分析上の決定が枝分かれしていく集合であり、そのうちのどこかの小道はほぼ必ず有意な結果へとつながっている。
研究者が意識的に分析を次々と試し、有意に達したものだけを報告するとき、その実践はpハッキングと呼ばれ、偽陽性の割合を、有意性検定が保証するはずの名目上の5パーセントをはるかに超えて水増しする。落ち着かない点は、そうするのに不誠実である必要はない、ということである。自分の仮説が正しいと心から確信している科学者は、データが言うことを聞くまで調整を続け、それから袋小路だったものを忘れてしまう。発表された論文は、すっきりと自信に満ちた物語を提示するが、そうした論文の数々から築かれた文献は、見かけどおりのものではない。報告された信頼性は、走らせておきながら一度も触れられなかったすべての分析が生み出した幻なのである。
脆い知見に報いた誘因
こうした個々の習慣は、事業全体の構造によって増幅された。学術誌は、効果を見いだした研究である肯定的結果を、何も見いださなかった研究である無効結果よりも、強く好んで掲載する。これが出版バイアスであり、どの研究者もそれが自分のキャリアを左右することを知っている。無効な知見でいっぱいの引き出しでは、採用も助成も終身在職権も得られない。だから無効結果はひっそりと消えていき、運のよい肯定的結果が印刷される。発表された記録は、たまたまの偶然だったかもしれない知見の側へと偏ってしまう。それらと釣り合いをとるはずだった失敗は、けっして印刷されなかったからである。
出版バイアスはまた、HARKingとして知られる、より微妙な歪みをも促す。これは「結果が判明したあとで仮説を立てること」を意味する。本来、仮説とはデータを見る前になされる予測であり、確証された予測が印象的なのは、まさにあらかじめそれにコミットしていたからである。HARKingは順序を逆にする。研究を走らせ、何が出てきたかを見て、それから最初からそれを予測していたかのように論文を書くのである。その結果は、大胆な発想の見事な確証のように読めるが、実際にはたまたま現れたノイズが何であれ、その記述にすぎない。検出力の足りない研究、柔軟な分析、消えた無効結果のお蔵入り、そして後付けの仮説。これらを組み合わせれば、再現しない知見を製造するためにほとんど設計されたかのような機械ができあがる。
心理学を立て直しつつある改革
この物語の心強い点は、心理学が否認で応じなかったことである。それは改革で応じ、その改革は個人を叱責するのではなく、そのしくみそのものを直接の標的にしている。要となるのは事前登録、つまりあなたの仮説、あなたの方法、そしてあなたの正確な分析計画を、データを一切集める前に投稿する、公開された日時記録つきのコミットメントである。これは利用できるなかで最も単純な構造的修正であり、予測と発見のあいだに明確な一線を引くがゆえに強力である。いったん分析計画が書面に固定されれば、枝分かれする小道の庭をこっそりpハッキングして通り抜けることはできないし、HARKingもできない。なぜなら、あなたが実際に何を予測したのかを誰もが見られるからである。
より野心的な発展形が、登録報告である。ここでは、学術誌が、データがまだ存在しないうちから、その問いと方法の質にもとづいて研究を査読し暫定的に受理する。そして結果が肯定的であろうと無効であろうと、それを掲載することにコミットする。このひとつの変更だけで、出版バイアスをその根元から攻撃できる。なぜなら、受理はもはやわくわくする結果を得ることに依存しないからである。これらとならんで、この分野は実質的に大きいサンプルを取り入れた。多くの研究室にまたがって参加者をプールすることもしばしばで、それによって小規模な研究にはけっして得られなかった精度で効果を測定できるようにし、あわせてオープンデータとオープンな資料によって、誰もがその作業を精査し再実行できるようにした。
再現そのものもまた、ふたつの異なる役目をもつ技として明確にされた。直接再現は、もとの手続きをできるかぎり忠実に繰り返して、もとの効果が新しいサンプルで現れるかどうかを検証する。それは「この特定の結果は偶然に起きたのか」を問う。概念的再現は、異なる方法を用いて、同じ根底にある仮説を検証する。それは「たとえその個別の実験が不完全だったとしても、より広い発想は健全か」を問う。どちらも価値があるが、答えている問いは異なる。そして概念的再現は、直接再現がもつ基本的な説明責任の代わりには、けっしてなりえない。
再現できてもなお一般化しないもの
直接再現を生き延びた知見でさえ、別の、そしてより静かな問題を抱えうる。2010年、研究者のジョセフ・ヘンリック、スティーブン・ハイネ、アラ・ノレンザヤンは、心理学の参加者の圧倒的多数が、西洋的で(Western)、教育を受け(Educated)、産業化され(Industrialized)、豊かで(Rich)、民主的な(Democratic)社会から集められていることを指摘した。彼らはこの集団をWEIRDという頭字語で名づけた。これらの参加者、しばしば少数の豊かな国々の大学の学部生たちは、視覚的知覚から道徳的推論、自己の概念にいたるまで、多くの心理学的尺度において風変わりであることがわかる。アメリカの大学生のサンプルでは完璧に再現する結果も、人類全体についてはほとんど何も語らないかもしれない。この一般化可能性の懸念は、再現の懸念に上乗せされる。知見が、それが見いだされた実験室のなかで本物であるだけでは十分ではない。たまたま研究された人々という狭い一切れを超えても、それが成り立たねばならないのである。
これらの教訓を合わせると、心理学的な主張に対して注意深い読み手がどう向き合うべきかが変わってくる。古い問いは、単に結果が統計的に有意かどうかだった。現代の問いは、より豊かで、より懐疑的である。その研究は事前登録されていたか、つまりその仮説と分析はあらかじめ固定されていたか。サンプルは、主張する効果を検出するのに十分な大きさだったか。独立したチームが直接再現を通じてそれを確証したか。そして、それは豊かな民主主義国の学部生に似ていない人々のあいだでも成り立つか。かつて真実の証印として扱われたひとつの有意なp値は、いまや正しくは、問いの終わりではなく始まりとして読まれるのである。
重要なポイント
2015年のオープン・サイエンス・コラボレーションのプロジェクトでは、270人の研究者が発表済みの研究100件を再実行し、再現できたのはおよそ36パーセントだけだった。それは学問分野全体の清算を引き起こしたが、その原因は、一部の悪人の仕業ではなく、構造的なものだった。社会的プライミング、自我消耗、パワーポージングといった注目度の高い効果が丁寧な再検証のもとで崩れたのは、根底にある研究の機構に欠陥があったからである。20人から40人の参加者というサンプルは、心理学が研究する小さな効果を確実に測定するにはあまりに小さすぎ(統計的検出力が低すぎ)、現代の分析の柔軟性は枝分かれする小道の庭をたどるpハッキングを許し、出版バイアスは無効結果を葬り、HARKingは事後の発見を確証された予測のように装わせた。この分野の応答は、これらのしくみをまっすぐに標的にした本物の改革だった。すなわち、事前登録、登録報告、はるかに大きくしばしば複数の研究室にまたがるサンプル、オープンデータ、そして直接再現と概念的再現のより明確な区別である。一方で、ヘンリック、ハイネ、ノレンザヤンによるWEIRD批判は、頑健な知見でさえ、ふだん検証される狭い集団を超えては一般化しないかもしれないことを思い出させる。実際の帰結は、信じるためのより厳しい基準である。そのもとでは、知見はひとつの有意な結果からではなく、事前登録、十分な検出力、独立した再現、そして多様な人間にまたがって成り立つという証拠から、信頼を勝ち取るのである。
Learn more with Mindoria
Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.
Download Free