재현성 위기: 그토록 많은 심리학이 무너진 이유

2015년 8월, 심리학자 브라이언 노섹이 이끄는 270명의 연구진은 하나의 숫자를 발표했고, 그 숫자는 마치 판결처럼 학계에 떨어졌다. 오픈 사이언스 컬래버레이션이라는 이름 아래 활동한 이들은 주요 심리학 학술지 세 곳에서 연구 100건을 골라 가능한 한 신중하게 각 연구를 다시 수행한 뒤 결과를 집계했다. 그중 약 36퍼센트가 재현되었다. 쉽게 말해, 과학자들이 소매를 걷어붙이고 이 잘 알려진 실험들을 다시 돌렸을 때 거의 셋 중 둘이 원래의 효과를 재현해 내지 못했다.

이 연구들은 무명의 것이 아니었다. 상당수는 수백 번씩 인용되었고, 학부 강의에서 가르쳐졌으며, 마음에 관한 대중서에 녹아들어 있었다. 어떤 것들은 거대한 연구 프로그램 전체를 출범시키기도 했다. 그런 연구들이 신중한 재검증 앞에서 증발하는 광경은 한 세대의 심리학자들에게 충격적인 동시에 정신을 번쩍 들게 하는 일이었다. 그 숫자가 심리학이 가짜라는 것을 증명한 것은 아니지만, 학계가 수십 년 동안 피해 올 수 있었던 불편한 질문을 강제로 들이밀었다. 인간 행동에 대해 우리가 안다고 믿는 것 가운데 실제로 참인 것은 얼마나 되는가?

하나의 신중한 프로젝트에서 시작된 자성

이 자성을 촉발한 프로젝트는 그 설계에서 의도적으로 극적이지 않았고, 바로 그 절제가 이 프로젝트가 중요했던 이유 중 하나다. 오픈 사이언스 컬래버레이션은 존중받는 학술지 세 곳에서 2008년에 발표된, 사회심리학과 인지심리학을 아우르는 연구 100건을 선정했다. 각 연구에 대해 연구팀은 직접 재현을 수행했는데, 이는 원래 절차를 가능한 한 충실히 따랐다는 뜻이며, 종종 원저자들과 협의하면서 진행했고, 결정적으로 원래보다 상당히 큰 표본을 사용했다. 그런 다음 모든 결과를 공개적으로 정리하고 재료와 데이터를 공유하여 누구나 그 작업을 검증할 수 있게 했다.

그 투명성은 헤드라인을 장식한 통계 수치만큼이나 중요했다. 핵심은 개별 연구자를 매복 공격하는 것이 아니라 출판된 문헌을 정직하게 점검하는 것이었다. 여러 척도로 볼 때 그 그림은 냉정하게 만드는 것이었다. 원래 연구들이 어떤 효과를 보고한 경우, 재현 연구들이 발견한 효과는 평균적으로 그 절반 정도 크기인 경향을 보였고, 상당수는 통계적으로 0과 구별되지 않았다. 흔히 더 깔끔한 실험실 과제를 다루는 인지심리학의 효과는 비교적 잘 유지된 반면, 더 지저분하고 맥락에 더 의존적인 행동을 다루는 사회심리학의 효과는 그렇지 못했다. 이 가운데 어느 것도 적대적인 외부인에게서 나온 것이 아니었다. 그것은 학계가 이미 신뢰하던 도구로 스스로를 들여다본 결과였다.

조용히 무너져 내린 유명한 발견들

희생자 중 일부는 수년 동안 정설처럼 떠돌던, 강의와 TED 강연에서 자신 있게 되풀이되던 종류의 발견이었다. 그중 특히 세 가지가 이 위기의 상징이 되었다.

첫 번째는 사회적 점화로, 미묘하고 알아차리지 못한 단서가 행동을 놀라울 만큼 크게 바꿔 놓을 수 있다는 발상이다. 한 유명한 초기 연구는 노인과 연관된 단어에 노출된 참가자들이 그 후 복도를 더 천천히 걸었다고 주장했다. 독립된 실험실들이 적절한 통제 아래 그 결과를 재현하려 하자 그 효과는 잡히지 않았다. 두 번째는 자아 고갈로, 의지력이 소진되는 한정된 자원에 기대고 있어서 한 과제에 자제력을 쓰면 다음 과제에서는 더 약해진다는 주장이다. 이를 뒷받침하는 방대한 문헌이 있었지만, 여러 실험실에 걸쳐 대규모로 조율되고 사전 등록된 재현 시도는 효과가 거의 또는 전혀 없음을 발견했다. 세 번째는 파워 포징으로, 몇 분 동안 당당하고 자신감 넘치는 확장된 자세를 취하면 테스토스테론이 올라가고 스트레스 호르몬인 코르티솔이 내려가며 사람이 더 대담하게 행동하게 된다는 주장이다. 그 호르몬 관련 주장과 행동 관련 주장은 신중한 재검증을 견뎌 내지 못했고, 결국 원저자 중 한 사람은 공개적으로 그 주장에서 물러섰다.

정확히 짚어 둘 필요가 있다. 재현 실패가 언제나 원래의 효과가 존재하지 않는다는 뜻은 아니다. 그것은 효과가 처음 믿었던 것보다 더 작거나, 더 취약하거나, 조건에 더 의존적이라는 뜻일 수 있다. 그러나 유능한 연구자들이 같은 방법을 따라도 어떤 발견을 안정적으로 재현해 낼 수 없다면, 그것이 한때 아무리 유명했더라도 확립된 지식이라는 지위는 사라진다.

붕괴의 밑바닥에 깔린 산수

어째서 그토록 많은 연구가 그토록 허술한 것으로 드러났을까? 답의 일부는 멋없는 산수다. 20세기 대부분에 걸쳐 전형적인 심리학 실험은 조건당 대략 스무 명에서 마흔 명 정도의 참가자를 썼다. 심리학자들이 실제로 연구하는 효과의 크기를 고려하기 전까지는 그 정도가 합리적으로 들린다. 인간 행동은 엄청나게 얽힌 원인들의 영향을 받으므로, 어떤 단일한 조작의 효과는 보통 작거나 중간 정도다. 진정으로 작은 효과를 안정적으로 탐지하려면 마흔 명보다 훨씬 많은 인원이 필요하며, 때로는 수백 명이 필요할 수도 있다.

여기서 관련된 개념이 통계적 검정력으로, 어떤 효과가 진짜로 존재할 때 연구가 그것을 탐지해 낼 확률이다. 검정력이 낮은 연구는 단지 민감도가 떨어지는 데 그치지 않는다. 그것은 적극적으로 오해를 불러일으킨다. 검정력이 낮은 작은 연구가 통계적 유의성의 문턱을 넘는 경우, 그것이 보고하는 효과는 종종 부풀려져 있다. 참가자가 그렇게 적은데도 유의성에 도달하려면 유난히 크고 (부분적으로는 운이 따른) 결과여야만 했기 때문이다. 따라서 문헌은 인상적으로 보이지만 일부는 통계적 신기루였던 효과 크기들로 채워졌다. 누군가 부정하게 행동하기도 전에 이미 위기는 그 안에 새겨져 있었다. 단지 표본이 거기서 끌어낸 결론을 떠받치기에는 너무 작았기 때문이다.

정직한 연구자들이 스스로를 속인 방식

그러나 더 깊은 문제는 잘못된 산수가 아니라 평범한 연구 관행 속에 숨어 있는 조용한 유연성이었다. 현대 통계 소프트웨어는 같은 데이터셋에 수십 가지 분석을 돌리는 일을 터무니없이 쉽게 만들고, 연구자가 모든 세부 사항을 미리 결정하는 경우는 드물다. 이상치는 제거해야 하는가, 그렇다면 어느 기준에서? 나이나 성별, 기분을 통제해야 하는가? 여러 설문 항목 중 어느 것을 결과로 간주해야 하는가? 이런 선택은 하나하나 따로 보면 정당화할 수 있지만, 합쳐지면 통계학자 앤드루 겔먼이 갈림길의 정원이라고 부른 것을 만들어 낸다. 이는 분석상의 결정이 가지를 뻗어 나가는 집합으로, 그중 어떤 경로는 거의 언제나 유의한 결과로 이어진다.

연구자가 의식적으로 이 분석 저 분석을 시도해 보고 유의성에 도달한 것만 보고할 때, 그 관행을 p-해킹이라고 부르며, 이는 유의성 검정이 보장하기로 되어 있는 명목상의 5퍼센트를 훨씬 넘어 거짓 양성의 비율을 부풀린다. 불안한 점은 그렇게 하기 위해 부정직할 필요는 없다는 것이다. 자기 가설이 옳다고 진정으로 확신하는 과학자는 데이터가 협조할 때까지 계속 조정한 다음, 막다른 길들은 잊어버린다. 출판된 논문은 깔끔하고 자신만만한 이야기를 제시하지만, 그런 많은 논문으로 쌓아 올린 문헌은 겉보기와 다르다. 보고된 신뢰성은 돌려졌으나 결코 언급되지 않은 모든 분석이 만들어 낸 환상이다.

취약한 발견에 보상을 준 유인 구조

이런 개인적 습관들은 전체 시스템의 구조에 의해 증폭되었다. 학술지는 효과를 발견한 연구인 긍정적 결과를, 아무것도 발견하지 못한 연구인 영가설 결과보다 훨씬 더 선호해 출판한다. 이것이 출판 편향이며, 모든 연구자는 그것이 자신의 경력을 좌우한다는 것을 안다. 영가설 발견으로 가득 찬 서랍은 채용이나 연구비, 종신 재직권을 가져다주지 못하므로, 영가설 결과는 조용히 사라지는 반면 운 좋은 긍정적 결과는 활자화된다. 그렇게 출판된 기록은 요행이었을 수도 있는 발견 쪽으로 치우치게 되는데, 그것들을 상쇄해 줄 실패들이 애초에 활자가 되지 못했기 때문이다.

출판 편향은 또한 HARKing으로 알려진 더 미묘한 왜곡을 부추긴다. 이는 결과를 안 뒤에 가설을 세우는 것을 뜻한다. 본래 가설이란 데이터를 보기 전에 내놓는 예측이며, 확인된 예측이 인상적인 까닭은 바로 미리 거기에 헌신했기 때문이다. HARKing은 그 순서를 뒤집는다. 연구를 돌려 무엇이 나왔는지 본 다음, 마치 처음부터 그것을 예측했던 것처럼 논문을 쓴다. 그 결과는 대담한 발상에 대한 깔끔한 확인처럼 읽히지만, 사실은 우연히 나타난 잡음에 대한 서술일 뿐이다. 검정력이 낮은 연구, 유연한 분석, 사라진 영가설로 가득 찬 서랍, 그리고 사후에 끼워 맞춘 가설을 합쳐 보라. 그러면 재현되지 않을 발견을 찍어 내도록 거의 설계된 기계를 갖게 된다.

학계를 다시 일으켜 세우고 있는 개혁들

이 이야기에서 고무적인 부분은 심리학이 부정으로 대응하지 않았다는 점이다. 학계는 개혁으로 대응했고, 그 개혁은 개인을 꾸짖기보다 이런 메커니즘을 직접 겨냥했다. 그 초석은 사전 등록으로, 데이터를 수집하기 전에 자신의 가설과 방법, 정확한 분석 계획을 공개적이고 시간 기록이 남도록 약속하는 것이다. 이는 활용 가능한 가장 단순한 구조적 해법이며, 예측과 발견 사이에 분명한 선을 긋는다는 점에서 강력하다. 분석 계획이 일단 글로 못 박히면 갈림길의 정원을 따라 조용히 p-해킹을 할 수 없고, 누구나 당신이 실제로 무엇을 예측했는지 볼 수 있으므로 HARKing도 할 수 없다.

더 야심 찬 확장은 등록 보고서다. 여기서는 학술지가 데이터가 존재하기 전에 연구의 질문과 방법의 질을 근거로 그 연구를 심사하고 잠정적으로 승인하며, 결과가 긍정적이든 영가설이든 상관없이 출판하기로 약속한다. 그 단 하나의 변화는 출판 편향을 그 뿌리에서 공격하는데, 게재 여부가 더 이상 흥미로운 결과를 얻느냐에 달려 있지 않기 때문이다. 이와 더불어 학계는 상당히 큰 표본을 받아들였고, 작은 연구가 결코 갖지 못했던 정밀도로 효과를 측정할 수 있도록 여러 실험실에 걸쳐 참가자를 모으는 경우가 많아졌으며, 누구나 그 작업을 면밀히 검토하고 다시 돌려 볼 수 있도록 공개 데이터와 공개 재료도 함께 채택했다.

재현 그 자체도 두 가지 뚜렷한 역할을 지닌 하나의 기술로 명확해졌다. 직접 재현은 원래 절차를 가능한 한 가깝게 반복하여 새로운 표본에서 원래 효과가 나타나는지 검증한다. 이는 이 특정 결과가 우연히 일어난 것인지를 묻는다. 개념적 재현은 다른 방법을 사용해 같은 근본 가설을 검증한다. 이는 특정 실험이 불완전했더라도 더 넓은 발상 자체가 타당한지를 묻는다. 둘 다 가치가 있지만 서로 다른 질문에 답하며, 개념적 재현은 직접 재현이 제공하는 기본적인 책임성을 결코 대신할 수 없다.

재현되더라도 여전히 일반화되지 않는 것

직접 재현을 견뎌 낸 발견이라도 별개의, 더 조용한 문제를 안고 있을 수 있다. 2010년, 연구자 조지프 헨릭과 스티븐 하이네, 아라 노렌자얀은 심리학 참가자 절대다수가 서구적이고(Western), 교육받았으며(Educated), 산업화되었고(Industrialized), 부유하며(Rich), 민주적인(Democratic) 사회 출신이라는 점을 지적하며, 이 집단에 WEIRD라는 머리글자를 붙였다. 소수의 부유한 국가에 속한 대학 학부생인 경우가 많은 이 참가자들은 시각 지각에서 도덕적 추론, 자아 개념에 이르기까지 많은 심리학적 척도에서 유별난 것으로 드러난다. 미국 대학생 표본에서 완벽하게 재현되는 결과라도 인류 전체에 대해서는 거의 아무것도 알려 주지 못할 수 있다. 이 일반화 가능성 문제는 재현 문제와 겹쳐진다. 어떤 발견이 그것이 발견된 실험실에서 진짜인 것만으로는 충분하지 않고, 우연히 연구된 좁은 부류의 사람들을 넘어서도 성립해야 한다.

이 교훈들을 종합하면, 신중한 독자가 어떤 심리학적 주장을 대해야 할 방식이 바뀌었다. 옛 질문은 단순히 어떤 결과가 통계적으로 유의한지였다. 오늘날의 질문은 더 풍부하고 더 회의적이다. 그 연구는 사전 등록되어 가설과 분석이 미리 고정되었는가? 표본은 그것이 주장하는 효과를 탐지하기에 충분히 컸는가? 독립된 연구팀이 직접 재현을 통해 그것을 확인했는가? 그리고 부유한 민주주의 국가의 학부생을 닮지 않은 사람들에게서도 성립하는가? 한때 진리의 도장으로 취급되던 단 하나의 유의한 p값은 이제 탐구의 끝이 아니라 시작으로 읽히는 것이 옳다.

핵심 정리

270명의 연구자가 출판된 연구 100건을 다시 돌려 약 36퍼센트만 재현됨을 발견한 2015년 오픈 사이언스 컬래버레이션 프로젝트는 학계 전체의 자성을 촉발했으며, 그 원인은 소수의 악행이 아니라 구조적인 것이었다. 사회적 점화, 자아 고갈, 파워 포징 같은 주목받던 효과들이 신중한 재검증 앞에서 무너진 것은 그 밑바탕의 연구 장치가 결함을 안고 있었기 때문이다. 스무 명에서 마흔 명의 표본은 심리학이 연구하는 작은 효과를 안정적으로 측정하기에는 (통계적 검정력이 너무 낮아) 턱없이 작았고, 현대 분석의 유연성은 갈림길의 정원을 따라 p-해킹을 가능하게 했으며, 출판 편향은 영가설 결과를 파묻었고, HARKing은 사후의 발견을 확인된 예측인 양 꾸며 냈다. 학계의 대응은 바로 이런 메커니즘을 정조준한 진정한 개혁이었으니, 곧 사전 등록과 등록 보고서, 훨씬 크고 흔히 여러 실험실에 걸친 표본, 공개 데이터, 그리고 직접 재현과 개념적 재현의 더 명확한 구분이며, 한편 헨릭과 하이네, 노렌자얀의 WEIRD 비판은 견고한 발견이라도 보통 검증되는 좁은 집단을 넘어서는 일반화되지 않을 수 있음을 일깨운다. 그 실천적 결론은 믿음에 대한 더 까다로운 기준이다. 그 기준 아래에서 어떤 발견은 단 하나의 유의한 결과가 아니라 사전 등록과 충분한 검정력, 독립적 재현, 그리고 다양한 인간에 걸쳐 성립한다는 증거를 통해 신뢰를 얻는다.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free