IQ가 실제로 측정하는 것

만약 당신이 오늘 IQ 검사를 받고, 1920년에 태어난 낯선 사람이 같은 규준에 맞춰 같은 검사를 받는다면, 그 사람은 평균적으로 당신보다 대략 30점 아래에 자리할 것이다. 30점은 어마어마한 차이다. 그것은 통계적으로 평균인 사람과 하위 몇 퍼센트에 속하는 사람을 가르는 격차다. 이를 액면 그대로 받아들이면 우리 증조부모 세대는 마치 장애의 경계에서 허덕이고 있던 것처럼 보이는데, 이는 터무니없는 이야기다. 그들은 전력망을 건설했고, 전쟁에서 이겼으며, 교향곡을 썼고, 원자를 쪼갰기 때문이다. 문자 그대로의 해석에는 분명 무언가 잘못된 점이 있고, 무엇이 잘못되었는가 하는 수수께끼는 심리학 전체에서 가장 많은 것을 드러내 보이는 질문 가운데 하나로 밝혀진다.

이 패턴은 실재하며 좀처럼 사라지지 않는다. 어느 산업화된 나라에서든 20세기 동안 지능 검사의 평균 점수를 그래프로 그려 보면, 그 선은 10년마다 대략 3점씩 올라가고, 그 시기 대부분에 걸쳐 둔화의 기미가 보이지 않는다. 점수는 올라갔지만 사람들은 뚜렷이 달라지지 않았다. 왜 그런지를 이해하고, IQ 점수가 실제로 무엇을 말해 주는지를 이해하려면, 이 검사들이 무엇을 측정하는지, 그 측정이 무엇을 예측하는지, 그리고 그것이 조용히 누락시키는 긴 항목들을 면밀히 살펴봐야 한다.

통계적 우연에서 만들어진 숫자

심리학자들은 지능에 대한 깔끔한 정의에 합의한 적이 없다. 전문가 열 명에게 물으면 "추상적으로 추론하는 능력"부터 "환경에 적응하는 능력"까지 답이 제각각이고, 어느 것도 완전히 만족스럽지 않다. 철학자들이 문제를 매듭짓기를 기다리는 대신, 인지심리학은 실용적인 길을 택해 지능을 조작적으로 정의하기로 했다. 즉 작업상의 목적을 위해, 지능을 잘 구성된 정신 능력 검사가 신뢰할 수 있게 측정하는 것으로 정의한 것이다. 그런 선택은 회피처럼 들리고 어느 정도는 실제로 그렇지만, 그것은 진짜이면서도 놀라운 경험적 발견에 근거하고 있다.

1904년 영국의 심리학자 찰스 스피어먼은 굳이 사실일 필요가 없었던 무언가를 발견했다. 그가 사람들에게 서로 관련 없는 여러 정신 과제, 즉 어휘, 산수, 패턴 완성, 기억력 과제를 한꺼번에 시켰을 때, 점수들은 모두 양의 상관을 보이는 경향이 있었다. 한 과제를 잘한 사람은 다른 과제도 잘하는 경향이 있었고, 한 과제에서 고전한 사람은 전반적으로 고전하는 경향이 있었다. 단어 정의에 능한 것과 시각 패턴을 잡아내는 데 능한 것이 함께 가야 할 뚜렷한 이유는 없었지만, 실제로 그러했다. 스피어먼은 하나의 바탕에 깔린 요인이 모든 과제로 스며들고 있다고 제안했고, 그것을 일반 지능을 뜻하는 g라고 이름 붙였다. g의 발견은 이 분야 전체의 일꾼이 되었고, 그것은 인간 인지 연구에서 가장 많이 재현된 발견으로 남아 있다.

정신 능력의 층위적 구조

현대의 지능 연구는 g를 이야기의 전부로 여기지 않는데, 그렇게 하면 명백히 층위를 이루고 있는 구조를 납작하게 눌러 버리기 때문이다. 그 대신 지배적인 그림은 위계적이다. 꼭대기에는 모든 것에 닿아 있는 일반 요인 g가 자리한다. 그 아래에는 소수의 광범위한 능력이 자리하는데, 가장 중요한 구분은 유동성 지능과 결정성 지능 사이의 구분이다. 유동성 지능은 추론하고, 새로운 패턴을 발견하며, 사전 지식에 의존하지 않고 낯선 문제를 푸는 능력이다. 추상적 추론 퍼즐은 바로 이것을 건드리도록 만들어진 것이다. 결정성 지능은 한 문화 속에서의 평생이 당신에게 쌓아 놓는 지식, 어휘, 학습된 절차의 축적된 저장고다. 이 광범위한 요인들 아래에는 언어, 공간, 수리, 처리 속도와 같은 더 구체적인 능력들이 놓여 있으며, 각각은 그 자체로 측정 가능하다.

이 두 광범위한 요인은 아주 다르게 나이 들어 가는데, 그 대비는 이 분야에서 더 인간적인 발견 가운데 하나다. 유동성 지능은 성인기 초기에 정점을 찍은 뒤 수십 년에 걸쳐 완만하게 내려가는 경향이 있는데, 순수한 문제 해결 속도가 흔히 20대에 가장 날카롭게 느껴지는 것은 그 때문이다. 결정성 지능은 그 반대로, 지식과 경험이 쌓여 가면서 인생 후반까지도 계속 성장한다. 빠른 젊은 경쟁자보다 더 느리지만 더 현명하게 문제를 푸는 나이 든 전문가는 감상적인 상투구가 아니다. 그것은 대체로 인지적 노화의 구조가 예측하는 바다.

점수를 인구 집단에 고정하기

IQ 숫자는 그 자체로는 아무 의미가 없는데, 그것이 무언가를 세어 놓은 값이 아니기 때문이다. 그것은 위치다. 현대의 검사들은 인구 규준에 맞춰 표준화되는데, 이는 먼저 크고 대표성 있는 표본을 검사한 다음, 한 개인의 원점수를 그 분포 안에서 어디에 떨어지는지로 환산한다는 뜻이다. 관례상 인구 평균은 100, 그리고 그 평균 주위로 점수가 흩어지는 전형적인 폭인 표준편차는 15로 설정된다. 따라서 구성상 평균적인 사람은 100점을 받고, 대부분의 성인, 즉 그들 가운데 약 3분의 2는 중심에서 표준편차 1 이내인 85점과 115점 사이에 들어간다.

밖으로 멀리 나갈수록 점수는 아주 빠르게 드물어진다. 145점을 넘거나 55점 아래인 점수는 평균에서 표준편차 3만큼 떨어져 있으며 극히 드물어서, 인구의 1퍼센트도 안 되는 일부에서만 나타난다. 이는 누군가가 극적인 세 자릿수 IQ를 인용할 때마다 염두에 둘 만한 점인데, 종 모양 곡선은 일상의 대화가 암시하는 것보다 극단적인 점수를 훨씬 더 희귀하게 만들기 때문이다. 그 점수는 진정으로 다른 모든 사람에 대한 순위 매김이며, 바로 그렇기 때문에 규준은 주기적으로 다시 표준화되어야 하고, 또 바로 그렇기 때문에 20세기의 수수께끼가 비로소 눈에 보이게 된다.

왜 점수는 계속 올라갔는가

이제 다시 그 30점으로 돌아가 보자. 각 세대의 점수는 재검사 이전에 이전의 규준에 닻을 내리고 있기 때문에, 연구자들은 놀라운 무언가를 볼 수 있었다. 20세기 대부분에 걸쳐 평균 점수가 10년마다 대략 3점씩 올랐던 것인데, 이 추세는 그것을 가장 철저하게 기록한 정치학자 제임스 플린의 이름을 따 이제 플린 효과라 불린다. 그 상승분은 균일하지 않았다. 그것은 추상적 추론 검사, 즉 한 번도 본 적 없는 도형에서 패턴을 찾으라고 요구하는 유동성 지능 퍼즐에서 가장 강했고, 어휘나 산수처럼 축적된 지식을 다루는 검사에서는 더 약했다.

그 고르지 않은 패턴이 이 부조리를 풀어내는 열쇠다. 우리 증조부모 세대는 인지적으로 손상되어 있던 것이 아니다. 그들은 그저 이 검사들이 보상하는 추상적이고 모든 것을 범주로 분류하는 식의 사고를 훨씬 덜 요구하는 세상에서 살았을 뿐이다. 그 설명들은 여전히 진정으로 논쟁 중이고, 정직하려면 단 하나의 원인도 결정적으로 승리하지 못했음을 인정해야 한다. 후보로는 더 나은 유년기 영양, 극적으로 확대된 학교 교육, 인지적으로 까다로운 노동의 확산, 아이 한 명당 어른의 관심이 더 많은 더 작은 가족, 그리고 추상적 상징과 퍼즐 같은 미디어로 포화된 현대 환경 등이 있다. 플린 자신은 현대의 삶이 사람들에게 그가 과학적 안경이라 부른 것을 쓰도록, 즉 세상을 추상적 범주와 가정의 관점에서 다루도록 훈련시켰다고 주장했는데, 그것은 바로 그 검사들이 보상하는 습관이다. 이 효과는 바탕에 깔린 유전자의 변화 없이도 한 인구 집단의 평균이 불과 몇 세대 안에 어마어마하게 움직일 수 있다는 강력한 환기다.

경쟁 이론들, 그리고 왜 g가 계속 이기는가

위계적이고 g를 중심에 둔 모형에는 두드러진 도전자들이 있는데, 그들은 진지하게 받아들일 만하면서도 또한 정직하게 따져 볼 만하다. 음악적, 신체운동적, 대인관계적 지능을 비롯한 여러 개의 별개이고 대체로 독립적인 지능이 존재한다고 제안하는 하워드 가드너의 다중 지능 이론은 교육 현장에서 엄청나게 인기를 끌었는데, 그곳에서 그것은 누구나 자기 나름의 방식으로 똑똑하다는 매력적인 메시지를 제공하기 때문이다. 그러나 그 경험적 뒷받침은 약하다. 연구자들이 이 이른바 독립적인 능력들을 실제로 측정하고 수치를 따져 보면, 요인 분석은 계속해서 같은 강력한 일반 요인이 다시 고개를 드는 것을 발견한다. 그 능력들은 따로 서 있기보다 서로 상관관계를 보인다. 가드너의 틀은 검증된 정신 구조 모형으로서보다 인간적인 교수 철학으로서 더 잘 기능한다.

로버트 스턴버그의 삼원 이론은 다소 더 나은 성과를 거두었다. 그것은 학업 검사가 측정하는 종류의 분석적 지능을, 현실 세계의 문제를 헤쳐 나가는 길거리 영리함인 실용적 지능, 그리고 창의적 지능과 구분한다. 실용적 능력과 분석적 능력 사이의 구분은 가드너의 도식보다 의미 있게 더 많은 경험적 뒷받침을 쌓아 왔으며, 종이 위에서는 추론을 잘 못하지만 어수선한 상황에서는 잘 풀어 나가는 사람들, 또는 그 반대인 사람들에 관한 무언가 실재하는 것을 포착한다. 그렇다 해도 어떤 경쟁 이론도 g를 밀어내지는 못했는데, 스피어먼이 1904년에 발견한 그 끈질긴 양의 상관관계가 검사를 어떻게 쪼개든 계속해서 나타나기 때문이다.

유전 가능성이 우리에게 말해 주는 것과 말해 주지 않는 것

심리학의 통계 가운데 IQ의 유전 가능성만큼 일상적으로 오해받는 것은 드물기에, 천천히 짚어 볼 만하다. 쌍둥이, 입양아, 가족을 토대로 한 행동유전학 연구들은 성인에서 IQ의 유전 가능성을 50에서 80퍼센트 사이로 추정하며, 공유된 가족 환경이 더 크게 작용하는 어린 아이에서는 그보다 두드러지게 낮다고 본다. 이 수치가 나이가 들수록 올라간다는 점은 직관에 어긋나는데, 그것은 사람들이 성장하면서 자신의 기질에 맞는 환경을 점점 더 많이 선택하고 빚어 나간다는 사실을 반영한다.

여기 핵심이 있다. 유전 가능성은 분산의 원천에 관한 인구 수준의 통계, 즉 한 집단 안에서 사람들이 서로 어떻게 다른가에 관한 통계다. 그것은 어느 한 사람의 지능이 무엇 때문에 생겨났는가에 관한 개인 수준의 진술이 아니며, 어떤 특성이 변할 수 없다는 고정된 함의를 전혀 담고 있지 않다. 70퍼센트의 유전 가능성은 당신 지능의 70퍼센트가 유전자에서 왔고 30퍼센트가 양육에서 왔다는 뜻이 아니다. 그 문장은 무의미하다. 그것은 연구된 인구 집단과 그 특정한 환경 범위 안에서, 사람들 사이의 차이 가운데 약 70퍼센트가 유전적 차이로 거슬러 올라간다는 뜻이다.

가장 중요한 오용은 인구 집단들 사이의 차이에 관한 것이며, 여기서의 논리는 결정적이다. 어떤 특성이 두 집단 각각의 내부에서는 고도로 유전적이면서도, 그 두 집단 사이의 평균 격차는 전적으로 환경 때문일 수 있다. 유전학자 리처드 르원틴은 1970년에 하나의 사고 실험으로 이 점을 잊을 수 없게 만들었다. 유전적으로 다양한 씨앗을 가져다 둘로 나눈 뒤, 한 무더기는 비옥한 흙에서, 다른 무더기는 척박한 흙에서 기른다고 해 보자. 각 화분 안에서 키 차이는 순전히 유전적이므로 유전 가능성은 100퍼센트이지만, 두 화분 사이의 평균 차이는 전적으로 흙 때문에 생긴다. 집단 내부의 통계는 집단들을 가로지르는 어떤 결론도 결코 정당화하지 못한다. 이를 인간 지능에 적용하면, 인구 집단들 내부에서 IQ가 높은 유전 가능성을 갖는다는 사실은 인구 집단들 사이의 평균 차이의 원인에 관해 아무것도 말해 주지 않으며, 인종과 관련된 검사 점수 격차에 관한 현대 연구는 유전적 설명보다 환경적 설명을 단호하게 가리킨다.

실재하는 예측력, 그리고 실재하는 한계

만약 IQ 점수가 아무것도 예측하지 못한다면 이 모든 것은 아무 의미가 없겠지만, 실제로는 예측을 하며, 그것이 이 구성 개념이 한 세기의 비판을 견뎌 온 이유의 일부다. IQ는 학업 성취, 폭넓은 직업 영역에 걸친 수행, 그리고 심지어 여러 건강 및 수명 결과와도 중간 정도의 상관관계를 보인다. 사회과학의 화려하지 않은 기준으로 보면, 그것은 심리학이 지금껏 만들어 낸 것 가운데 예측 타당도가 가장 높은 측정치 중 하나이며, 그렇지 않은 척하는 것은 일종의 부정이다.

그렇지만 중간 정도라는 말이 핵심이고, 정직한 표현은 IQ가 한 사람의 인생에 대한 판결이라기보다 여러 강력한 예측 변수 가운데 하나라는 것이다. 규율 있고 믿음직스러운 경향인 성실성은 여러 영역에서 적어도 그만큼은 장기적 성공을 잘 예측한다. 사회적 기술, 동기, 순전한 기회, 그리고 운 모두가 실재하는 무게를 지니지만, 그 가운데 어느 것도 추론 검사에는 나타나지 않는다. 요점은 IQ를 무시하자는 것이 아니라 그것을 제자리에 놓자는 것이다. 그것은 한 사람의 인지 능력에 관한 중요하고 안정적인 무언가를 포착하지만, 측정되지 않은 광대하고 중대한 영역을 남겨 둔다.

그 측정되지 않은 영역에는 우리가 가장 우러르는 능력들이 일부 포함된다. 다양하고 독창적인 여러 가능성을 생성해 내는 확산적 사고에 크게 기대는 창의성은 IQ와 부분적으로만 연결되어 있다. 어느 정도의 문턱을 넘어서면 둘은 각자의 길을 간다. 전문성은 또 다른 문제인데, 그것은 순수한 능력보다는 축적된 노력으로, 즉 심리학자 안데르스 에릭손이 연구했고 대중적인 글쓰기가 1만 시간이라는 대략적인 구호로 압축한 의도적 연습의 긴 도제 과정으로 만들어진다. 그리고 지식, 경험, 그리고 어떻게 살 것인가에 관한 균형 잡힌 판단을 통합하는 능력인 지혜는 어떤 추론 검사의 손이 닿는 범위에서도 대체로 벗어나 있다. 점수는 어떤 정신이 시간 제한이 있는 조건에서 얼마나 빠르고 추상적으로 추론하는지에 관해 무언가 참된 것을 말해 줄 수 있지만, 그 정신이 창의적인지, 전문적인지, 현명한지는 말해 줄 수 없으며, 애초에 그것을 위해 만들어진 적도 없다.

핵심 요점

지능은 깔끔한 정의를 거부하기에, 심리학은 다양한 정신 과제가 양의 상관을 보인다는 스피어먼의 1904년 발견을 중심으로 구축된 표준화 검사를 통해 그것을 조작적으로 정의하며, 그 발견은 g라 불리는 일반 요인을 드러낸다. 현대의 그림은 위계적이어서, g가 꼭대기에 있고 그 아래에 광범위한 유동성 및 결정성 능력(전자는 젊을 때 정점을 찍고 후자는 평생에 걸쳐 성장한다)이, 또 그 아래에 구체적인 언어, 공간, 수리, 속도 요인이 자리하며, 이 모든 것은 평균 100, 표준편차 15로 설정된 인구 규준에 맞춰 점수가 매겨지는데, 거기서 대부분의 성인은 85점과 115점 사이에 들어가고 55점 아래나 145점 위의 점수는 극히 드물다. 추상적 추론에서 가장 강한, 10년마다 대략 3점씩 오르는 플린 효과는 유전자가 인구 집단 내부의 분산 상당 부분을 추동함에도 불구하고 점수가 환경에 민감하다는 것을 보여 주며, 유전 가능성은 성인에서 50에서 80퍼센트로 추정된다. 결정적으로, 유전 가능성은 개인적 인과가 아니라 한 집단 내부의 분산을 기술하며, 르원틴의 논리는 그것이 인구 집단들 사이의 격차에 관해 아무것도 말해 주지 않음을 보여 주는데, 증거는 그 격차를 환경 탓으로 돌린다. 가드너의 다중 지능 같은 경쟁 이론은 끈질긴 일반 요인에 맞서 뒷받침이 약한 반면 스턴버그의 실용적 능력 대 분석적 능력의 구분은 더 나은 성과를 거두며, IQ는 심리학에서 예측 타당도가 가장 높은 구성 개념 가운데 하나이지만 중간 정도의 부분적인 예측 변수일 뿐이어서, 성실성, 기회, 운, 창의성, 전문성, 그리고 지혜를 대체로 그 측정의 바깥에 남겨 둔다.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free