죄수의 딜레마: 세상을 설명하는 게임

강도 사건이 일어난 뒤 용의자 두 명이 체포되어 각각 다른 방에 갇힌다. 경찰은 두 사람을 가벼운 혐의로는 유죄로 만들 만한 증거가 있지만 중대한 혐의로는 그렇지 못하다. 그래서 경찰은 두 죄수에게 똑같이 조용한 제안을 한다. 동료를 밀고하면 너는 풀려나고 그는 긴 형을 산다. 너는 침묵하는데 그가 입을 열면, 대신 네가 죄를 뒤집어쓴다. 둘 다 입을 열면, 각자 중간 정도의 형을 받는다. 둘 다 침묵하면, 각자 가벼운 형만 받는다. 어느 죄수도 상대를 볼 수 없고, 상대와 이야기할 수 없으며, 상대를 믿을 수도 없다. 각자에게 주어진 결정 시간은 단 몇 분뿐이다.

마치 범죄 영화의 도입부처럼 들리고, 실제로 그런 형태의 작품들도 있었다. 하지만 1950년경 랜드 연구소(RAND Corporation)의 수학자들이 형식화하고 프린스턴의 수학자 앨버트 터커(Albert Tucker)가 기억하기 좋은 이름을 붙인 이 작은 장면은, 현대 과학에서 가장 많이 연구된 수수께끼 중 하나가 되었다. 죄수의 딜레마는 보기에는 의외로 단순하지만, 협력과 신뢰와 사익에 관해 무언가 불편한 진실을 담고 있다. 그 진실은 군비 경쟁에서부터 기후 협상, 그리고 주유소 한 통의 기름값에 이르기까지 어디에나 등장한다. 그것은 진정한 의미에서 세상을 설명하는 게임이다.

고전적인 설정

이 딜레마의 힘은 그 정밀한 구조에 있다. 각 죄수에게는 두 가지 선택지가 있다. 협력하거나(서로 침묵을 지킴으로써), 배신하는 것이다(상대를 경찰에 밀고함으로써). 그러면 네 가지 가능한 결과가 나온다. 둘 다 협력하면 각자 가벼운 형, 가령 1년을 받는다. 둘 다 배신하면 각자 더 무거운 형, 가령 3년을 받는다. 그런데 비대칭적인 경우에서 함정이 닫힌다. 한 사람이 배신하고 다른 사람이 충실히 남으면, 배신자는 풀려나고 충실한 동료는 가령 5년의 전체 형기를 산다.

이 보상들을 나란히 놓으면 묘한 논리가 떠오른다. 어느 죄수의 관점에서든 가장 좋은 개인적 결과는 상대가 협력하는 동안 자신은 배신하는 것이다. 그러면 아무것도 받지 않고 빠져나온다. 가장 나쁜 결과는 자신은 협력하는데 상대가 배신하는 것이다. 그러면 가장 긴 형을 살고 동료는 집으로 가는 내내 비웃는다. 수수께끼는 각 개인에게 합리적으로 보이는 선택이 둘 모두에게 나쁜 결과를 낳는다는 점이다. 딜레마는 죄수들이 멍청하다는 것이 아니다. 그들이 영리하다는 것, 그리고 그 영리함이 그들을 가둔다는 것이다.

합리적인 행위자가 배신하는 이유

각 죄수가 했을 법한 추론을 따라가 보자. 동료가 침묵을 지킨다고 가정해 보라. 그렇다면 최선의 수는 배신하는 것이다. 풀려나는 것이 1년의 감옥살이보다 낫기 때문이다. 이번에는 동료가 대신 입을 연다고 가정해 보라. 여전히 최선의 수는 배신하는 것이다. 3년이 5년보다 낫기 때문이다. 상대가 무엇을 하든, 상대를 배신하면 자신이 더 유리하다. 게임 이론의 언어로 말하자면, 배신은 **우월 전략(dominant strategy)**이다. 가능한 모든 시나리오에서 더 나은 선택이라는 뜻이다.

두 죄수 모두 똑같은 계산을 하므로 둘 다 배신하고, 둘 다 더 무거운 3년 형으로 끝난다. 그러나 만약 둘 다 침묵을 지켰다면 각자 1년만 살았을 것이다. 그들은 자신에게 주어졌던 것보다 더 나쁜 결과로 스스로를 추론해 들어간 것이다. 이런 상호 배신의 조합을 경제학자들은 **내쉬 균형(Nash equilibrium)**이라 부른다. 이 문제들에 관한 연구가 1994년 노벨 경제학상 수상에 핵심이 되었던 수학자 존 내쉬(John Nash)의 이름을 딴 것이다. 내쉬 균형이란 어떤 행위자도 혼자 전략을 바꾸어서는 자신의 결과를 개선할 수 없는 상태다. 상호 배신이 안정적인 이유는 바로, 상대가 계속 배신하는 동안 한쪽이 침묵으로 바꾸어서는 더 나아질 수 없기 때문이다.

더 깊은 교훈은 개인적 합리성과 집단적 이익 사이의 간극이다. 두 행위자가 모두 원하는 결과(상호 협력)는 안정적이지 않다. 각자가 배신이라는 추가 이득을 챙기고 싶은 유혹을 받기 때문이다. 이 단순화된 세계에서 신뢰는 순진하다기보다 강제할 수 없는 것이다. 계약도 없고, 악수도 없으며, 배신자를 사후에 처벌할 방법도 없다. 그리고 강제력이 없으면, 사익은 가차 없이 더 나쁜 공동의 결과 쪽으로 끌어당긴다.

게임이 반복될 때

게임을 한 번 이상 할 때 이야기는 극적으로 달라진다. 단 한 번의 라운드는 배신을 보상하지만, 국가, 기업, 이웃 사이의 실제 관계는 대개 반복되는 만남을 수반한다. 이것이 **반복 죄수의 딜레마(iterated prisoner's dilemma)**이며, 협력의 문을 연다. 오늘의 배신을 내일 처벌할 수 있기 때문이다.

가장 유명한 시연은 정치학자 로버트 액설로드(Robert Axelrod)에게서 나왔다. 그는 1970년대 후반과 1980년대 초반에 연구자들을 초청해, 서로를 상대로 반복 라운드를 겨루는 컴퓨터 전략을 제출하게 했다. 뜻밖의 우승자는 출품된 프로그램 중 가장 단순한 것 중 하나로, **팃포탯(Tit for Tat)**이라 불렸고 수학자 아나톨 라포포트(Anatol Rapoport)가 제출한 것이었다. 그 규칙은 거의 어린아이 같았다. 첫 수에서는 협력하고, 그다음부터는 상대가 지난번에 한 것을 그대로 따라 하는 것이다. 시작은 친절하게, 배신에는 보복하되, 상대가 다시 협력하면 용서한다. 이 친절함과 보복과 용서의 조합은 훨씬 더 정교하고 공격적인 전략들을 능가했다.

액설로드는 이 토너먼트들에서 폭넓은 교훈을 끌어냈다. 협력은 사익을 추구하는 행위자들 사이에서도 생겨날 수 있지만, 오직 적절한 조건에서만 그렇다는 것이다. 미래가 충분히 중요할 때(행위자들이 다시 만나리라 예상할 때), 배신이 처벌받을 때, 그리고 좋은 행동이 보상받을 때 협력이 더 쉬워진다. 현실의 생생한 메아리는 제1차 세계대전의 참호에서 나타났는데, 그곳에서 대치하던 병사들이 때때로 비공식적인 "공존(live and let live)" 휴전에 안착해, 상대편이 같이 하는 한 사격을 멈추곤 했다. 역사가와 게임 이론가 모두 이것을 반복 협력이 실제로 작동한 사례로 읽었다. 같은 적군이 내일 다시 서로 마주하리라는 단순한 인식이 그것을 지탱한 것이다.

눈앞에 숨어 있는 딜레마들

죄수의 딜레마의 형태를 일단 익히고 나면, 도처에서 그것이 보이기 시작한다. 경제학과 정치학의 가장 어려운 문제들 중 다수가 그 구조를 공유한다. 각 당사자는 협력에서 이득을 얻을 텐데도 각자 배신의 유혹을 받고, 그래서 모두가 더 나쁜 처지에 놓인다.

군비 경쟁. 냉전 시기에 미국과 소련은 정확히 이 논리에 직면했다. 두 나라 모두 무기에 돈을 덜 쓰면 더 안전하고 더 부유해졌을 것이다. 그러나 한쪽이 무장을 해제하는데 다른 쪽이 군비를 늘리면, 무장을 해제한 쪽이 취약해진다. 그래서 둘 다 계속 군비를 늘렸고, 어느 쪽도 혼자서는 안전하게 줄일 수 없는 무기고에 막대한 자원을 쏟아부었다. 엄청난 비용을 치른 상호 배신이었다.

가격 전쟁. 같은 길모퉁이에 있는 경쟁 주유소 두 곳은 둘 다 가격을 높게 유지하면 더 많이 벌 것이다. 그러나 각자 손님을 차지하려고 상대보다 가격을 낮추고 싶은 유혹을 받는다. 둘 다 가격을 내리면, 결국 모두의 이익을 깎아내리는 가격 전쟁에 빠진다. 이것이 카르텔이 내부에서부터 불안정한 이유다. 합의된 가격을 어기려는 유인이 구조 자체에 내장되어 있다. 규제 당국이 개입하기도 전에 말이다.

공유 자원의 남용. 많은 사람이 하나의 공동 자원, 즉 어장, 방목지, 깨끗한 대기를 나누어 쓸 때, 각 개인은 조금 더 많이 가져감으로써 이익을 얻는 반면, 고갈의 비용은 모두에게 분산된다. 그 결과는 집단적 파멸일 수 있다. 생태학자 개릿 하딘(Garrett Hardin)이 1968년에 "공유지의 비극(tragedy of the commons)"이라는 이름으로 대중화한 양상이다. 그것은 군중의 규모로 확대된 죄수의 딜레마다.

기후 변화. 오늘날 이 딜레마의 가장 큰 형태는 아마 전 지구적 배출량일 것이다. 모든 나라가 안정된 기후에서 이득을 얻을 텐데도, 배출을 줄이는 데는 비용이 들고, 어느 한 나라든 자신은 계속 성장하면서 다른 나라들이 부담을 지게 하고 싶은 유혹을 받는다. 배신의 보상(지금 당장의 더 싼 에너지)은 즉각적이고, 그 비용은 공유되며 지연되고 전 지구적이다. 바로 이 때문에 기후 협정은 감시와 보고와 상호 약속에 그토록 크게 의존한다. 한 번뿐인 유혹을 결과가 따르는 반복 게임으로 바꾸는 현실의 장치인 것이다.

우리는 어떻게 함정을 벗어나는가

만약 이 딜레마가 벗어날 수 없는 것이라면 인간 사회는 제대로 기능하기 어려울 것이다. 우리가 조금이라도 협력한다는 사실, 계약을 지키고 세금을 내고 빨간불에 멈춰 선다는 사실은, 그 함정에 출구가 있음을 알려준다. 게임 이론과 경제학은 몇 가지를 가리킨다.

반복과 평판이 첫 번째다. 사람들이 서로 다시 거래하리라 예상할 때, 배신에는 미래의 비용이 따른다. 손님 한 명을 속인 상인은 많은 손님을 잃을 수 있다. 온라인 시장은 이 점에 크게 의존하며, 그것이 판매자 평점과 후기 시스템이 존재하는 이유다. 이 시스템들은 익명의 일회성 거래를, 평판이 걸려 있는 반복 게임에 더 가까운 무언가로 바꾼다.

강제력이 두 번째다. 계약, 법률, 법원, 경찰이 존재하는 것은 바로 보상 구조를 바꾸기 위해서다. 배신을 충분히 값비싸게 만들어 협력이 합리적인 선택이 되도록 하는 것이다. 구속력 있는 합의는 두 죄수가 할 수 없었던 일을 한다. 당사자들이 협력을 약속하고, 배신이 처벌받으리라 믿을 수 있게 해준다.

소통과 신뢰도 중요하다. 원래의 딜레마는 죄수들이 이야기할 수 없다고 가정한다. 그들이 협상하고, 관계를 쌓고, 선의를 드러낼 수 있게 하면 협력은 훨씬 더 지탱하기 쉬워진다. 무역 협상에서 군비 통제 조약에 이르기까지 외교의 많은 부분은, 죄수의 딜레마를 두 편이 실제로 함께 풀 수 있는 문제로 바꾸는 더딘 작업이다.

여기에 한계가 있음을 솔직히 인정할 필요가 있다. 죄수의 딜레마는 하나의 모형이며, 의도적인 단순화다. 실제 사람들은 완벽하게 합리적인 계산기가 아니다. 그들은 충성, 분노, 죄책감, 공정함을 느끼며, 실험들은 인간이 차가운 사익만으로 예측되는 것보다 더 자주 협력한다는 사실을 일관되게 보여준다. 과학자들은 정확히 왜 그런지를 두고 여전히 논쟁하는데, 그 설명은 호혜성을 향해 진화한 본능에서부터 신뢰의 문화적 규범에 이르기까지 다양하다. 이 모형이 인간 행동의 전부를 담아내지는 못한다. 그것이 담아내는 것은 그 밑바탕의 긴장, 즉 모두가 이득을 볼 텐데도 협력이 어려운 이유다.

핵심 요약

죄수의 딜레마가 오래도록 살아남는 이유는, 어려운 진실 하나를 상자 속 네 개의 숫자로 응축해 내기 때문이다. 각 개인에게 가장 좋은 것이 모두에게 집단적으로는 가장 나쁠 수 있다는 진실 말이다. 단 한 번의 만남에서, 합리적인 사익은 행위자들을 배신이라는 우월 전략을 통해 서로를 배신하도록 몰아가고, 협력했을 때보다 둘 다 더 나쁜 처지에 놓이게 하는 내쉬 균형에 떨어뜨린다. 그러나 그 함정이 운명은 아니다. 반복, 평판, 강제할 수 있는 규칙, 그리고 열린 소통은 모두 보상 구조를 바꾸어, 협력을 장기적으로 더 영리한 선택으로 만들 수 있다. 로버트 액설로드의 토너먼트와 단순한 팃포탯 전략의 성공이 시사하듯이 말이다. 냉전 시대의 무기고에서부터 가격 전쟁, 남획된 바다, 그리고 탄소 배출을 둘러싼 전 지구적 싸움에 이르기까지, 똑같은 조용한 논리가 거듭 다시 나타난다. 이 딜레마를 알아보는 법을 익히면, 신뢰가 왜 그토록 깨지기 쉬운지, 제도가 왜 존재하는지, 그리고 모두가 명백히 분별 있는 일을 하도록 만드는 것이 왜 우리가 마주한 가장 오래되고 가장 어려운 문제 중 하나인지를 더 날카롭게 바라보는 렌즈를 얻게 된다.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free