囚人のジレンマ：世界を説明するゲーム

強盗事件のあと、2人の容疑者が逮捕され、別々の部屋に閉じ込められる。警察は2人を軽い罪で有罪にするだけの証拠は持っているが、重い罪については足りない。そこで警察は、それぞれの囚人に同じ静かな取引を持ちかける。相棒を密告すれば、お前は釈放され、相棒が長い刑期を務める。相手が話すあいだお前が黙っていれば、代わりにお前が罪をかぶる。2人とも話せば、それぞれ中くらいの刑を受ける。2人とも黙っていれば、それぞれ軽い刑だけで済む。どちらの囚人も相手を見ることも、話すことも、信じることもできない。それぞれに、決断のための数分しか与えられていない。

これは犯罪映画の冒頭のように聞こえるし、実際にそうした映画も作られてきた。だが、この小さな場面は、1950年ごろにRAND研究所の数学者たちによって定式化され、プリンストン大学の数学者アルバート・タッカーによって忘れがたい名前を与えられて、現代科学でもっともよく研究される難問のひとつになった。囚人のジレンマは見かけによらず単純だが、協調、信頼、そして利己心について、どこか落ち着かない何かをとらえている。それは軍拡競争から気候交渉、さらにはガソリン1タンクの値段に至るまで、いたるところに現れる。それはまさに、世界を説明するゲームなのだ。

古典的な設定

このジレンマの力は、その精密な構造にある。それぞれの囚人には2つの選択肢がある。協調する（黙秘して互いに協力する）か、裏切る（相手を警察に密告する）かだ。これで4通りの結果が生まれる。2人とも協調すれば、それぞれ軽い刑、たとえば1年を受ける。2人とも裏切れば、それぞれより重い刑、たとえば3年を受ける。だが、罠が音を立てて閉じるのは、非対称なケースにおいてだ。一方が裏切り、もう一方が忠誠を守れば、裏切った者は釈放され、忠実な相棒は満期、たとえば5年を務めることになる。

これらの利得を並べてみると、奇妙な論理が浮かび上がる。どちらの囚人の視点から見ても、最良の個人的結果は、相手が協調するあいだに自分が裏切ることだ。そうすれば何も背負わずに立ち去れる。最悪なのは、自分が協調するあいだに相手が裏切ることだ。そうなれば最も長い刑期を務め、相棒は笑いながら家路につく。この難問の核心は、個人にとって合理的に見えるものが、両者にとって悪い結果を生むという点にある。ジレンマは、囚人が愚かだという話ではない。彼らが賢く、その賢さが彼らを罠にかけるという話なのだ。

なぜ合理的なプレイヤーは裏切るのか

それぞれの囚人がたどる推論を追ってみよう。相棒が黙秘すると仮定してみる。すると、あなたの最善の手は裏切ることだ。なぜなら、釈放のほうが懲役1年よりましだからだ。今度は、相棒が話すと仮定してみる。それでもあなたの最善の手はやはり裏切ることだ。なぜなら、3年のほうが5年よりましだからだ。相手が何をしようと、あなたは相手を裏切ることで有利になる。ゲーム理論の言葉でいえば、裏切りは支配戦略である。あらゆる起こりうるシナリオのもとで、より良い選択肢なのだ。

両方の囚人が同じ計算をするので、両方が裏切り、両方がより重い3年の刑に終わる。それでも、もし2人とも黙秘していれば、それぞれ1年務めるだけで済んだはずだ。彼らは、手の届くところにあったよりも悪い結果へと、自ら論理を組み立てて入り込んでしまった。この相互の裏切りの組み合わせが、経済学者がナッシュ均衡と呼ぶものである。この名は数学者ジョン・ナッシュにちなんでおり、こうした問題に関する彼の研究は、1994年のノーベル経済学賞の中心となった。ナッシュ均衡とは、どのプレイヤーも自分だけが戦略を変えても結果を改善できない状態のことだ。相互の裏切りが安定しているのは、まさに、一方が裏切り続けているあいだにもう一方が黙秘へと切り替えても、より良くなることができないからである。

より深い教訓は、個人の合理性と集団の利益とのあいだのずれにある。両プレイヤーが望む結果（相互の協調）は安定しない。なぜなら、それぞれが裏切りという余分な利得をつかむ誘惑にかられるからだ。この切り詰められた世界では、信頼は、ナイーブというよりも、強制できないものなのだ。契約もなく、握手もなく、裏切り者を事後に罰する手立てもない。そして強制がなければ、利己心は容赦なく、より悪い共有の結果へと引っ張っていく。

ゲームが繰り返されるとき

ゲームが一度きりではなく繰り返されると、物語は劇的に変わる。1回限りの勝負は裏切りに報いるが、国どうし、企業どうし、隣人どうしの現実の関係は、たいてい繰り返しの出会いを含んでいる。これが繰り返し囚人のジレンマであり、これが協調への扉を開く。なぜなら、今日の裏切りは明日に罰しうるからだ。

もっとも有名な実証は、政治学者ロバート・アクセルロッドによるものだ。彼は1970年代後半から1980年代前半にかけて、研究者たちに、繰り返されるゲームのラウンドで互いに競い合うコンピュータ戦略を提出するよう呼びかけた。意外な勝者は、提出された中でもっとも単純なプログラムのひとつ、**しっぺ返し（Tit for Tat）**と呼ばれるもので、数学者アナトール・ラパポートが提出した。そのルールはほとんど子どものように素朴だった。最初の手では協調し、それからは前回相手がしたことをそのまま返す。最初は親切にふるまい、裏切りには報復し、しかし相手が再び協調すれば許す。この親切さ、報復、そして寛容さの混合は、はるかに手の込んだ攻撃的な戦略を上回った。

アクセルロッドは、これらのトーナメントから広い教訓を引き出した。利己的なプレイヤーのあいだでも協調は生まれうるが、それは適切な条件のもとでのみ起こる、と。それが起きやすいのは、未来が十分に重要であるとき（プレイヤーが再び出会うと予期するとき）、裏切りが罰せられるとき、そして良いふるまいが報われるときだ。鮮やかな現実の反響が、第一次世界大戦の塹壕に現れた。そこでは対峙する兵士たちが、ときに非公式の「生きて、生かしめよ」の休戦に落ち着き、相手側が同じようにするかぎり発砲を控えた。歴史家もゲーム理論家も同じように、これを繰り返しの協調が実際に働いている様子として読み解いてきた。それは、同じ敵が明日も再び互いに向き合うのだという単純な認識によって支えられていた。

目の前に隠れているジレンマ

囚人のジレンマの形を一度学ぶと、いたるところでそれが見えるようになる。経済学や政治学のもっとも難しい問題の多くは、その構造を共有している。各当事者は協調によって利益を得られるはずなのに、それぞれが裏切りに誘われ、こうして全員がより悪い状態に終わるのだ。

軍拡競争。 冷戦のあいだ、アメリカ合衆国とソビエト連邦は、まさにこの論理に直面した。両国とも、武器への支出を減らしたほうが、より安全でより豊かだったはずだ。だが、一方が武装解除し、もう一方が増強すれば、武装解除した側は無防備にさらされる。だから両者は増強を続け、どちらの側も単独では安全に縮小できない兵器庫に、膨大な資源を注ぎ込んだ。途方もない代償をともなう、相互の裏切りである。

価格競争。 同じ角にある2つの競合ガソリンスタンドは、価格を高く保てば、どちらもより多く稼げる。だが、それぞれが顧客を奪うために相手を出し抜きたい誘惑にかられる。両方が値下げすると、結局は誰の利益も縮める価格競争に陥る。これが、カルテルが内部から不安定である理由だ。取り決めた価格をごまかす誘因は、規制当局が関わってくる以前から、その構造に組み込まれているのである。

共有資源の乱用。 多くの人々が共通の資源、すなわち漁場、放牧地、清浄な大気を分かち合うとき、各個人は少しだけ多く取ることで得をするが、枯渇の費用は全員に薄く広がる。その結果は集団的な破滅でありうる。生態学者ギャレット・ハーディンが1968年に「コモンズの悲劇」として広めたパターンだ。それは群衆へと規模を拡大した囚人のジレンマなのだ。

気候変動。 今日のこのジレンマのおそらく最大の版は、世界の温室効果ガス排出である。すべての国は安定した気候から利益を得られるはずだが、排出を削減するのは費用がかかり、どの一国も、自国が成長を続けながら他国に負担を背負わせたい誘惑にかられる。裏切りへの報酬（今すぐ手に入る安価なエネルギー）は即座にやってくる。費用は共有され、遅れて訪れ、地球規模だ。これこそが、気候協定が監視、報告、相互のコミットメントにそれほど大きく依存している理由である。それらは、一度きりの誘惑を、結果のともなう繰り返しゲームへと変えるための、現実世界の仕掛けなのだ。

私たちはどう罠から逃れるのか

もしこのジレンマが逃れられないものなら、人間社会はほとんど機能しないだろう。私たちがそもそも協調するという事実、契約を守り、税金を払い、赤信号で止まるという事実は、罠に出口があることを教えてくれる。ゲーム理論と経済学は、いくつかの出口を指し示している。

繰り返しと評判が最初のものだ。人々が再び互いに取引すると予期するとき、裏切りは将来の費用をともなう。1人の顧客をだます商人は、多くの顧客を失うかもしれない。オンライン市場はこれに強く依存している。だからこそ、出品者の評価やレビューの仕組みが存在する。それらは、匿名の一度きりの取引を、評判が懸かった繰り返しゲームに近いものへと変えるのだ。

強制が2つめだ。契約、法律、裁判所、警察は、まさに利得を変えるために存在する。裏切りを十分に高くつくものにし、協調が合理的な選択になるようにするためだ。拘束力のある合意は、2人の囚人にはできなかったことをやってのける。当事者が協調することを約束し、裏切りが罰せられると信頼できるようにするのである。

コミュニケーションと信頼もまた重要だ。元のジレンマは、囚人たちが話せないと仮定している。彼らに交渉させ、関係を築かせ、誠意を示させれば、協調ははるかに維持しやすくなる。外交の多くは、貿易交渉から軍備管理条約に至るまで、囚人のジレンマを、二つの側が実際に一緒に解ける問題へと変える、ゆっくりとした作業なのだ。

ここでの限界について正直であることは価値がある。囚人のジレンマはひとつのモデルであり、意図的な単純化だ。現実の人間は完璧に合理的な計算機ではない。彼らは忠誠、怒り、罪悪感、公正さを感じる。そして実験は一貫して、人間が冷たい利己心だけが予測するよりも頻繁に協調することを示している。科学者たちは、それがなぜなのかをいまだに議論しており、説明は、互恵性のために進化した本能から、信頼という文化的規範まで多岐にわたる。このモデルは人間のふるまいのすべてをとらえてはいない。それがとらえているのは、その根底にある緊張、すなわち、全員が利益を得られるときでさえ協調が難しい理由なのだ。

重要なポイント

囚人のジレンマが生き残っているのは、それが厳しい真理を、箱の中の4つの数字に蒸留しているからだ。すなわち、各人にとって個別に最善であるものが、全員にとって集団的に最悪でありうる、という真理である。一度きりの出会いでは、合理的な利己心がプレイヤーを、裏切りという支配戦略を通じて互いを裏切らせ、協調していた場合よりも両者をより悪い状態に置くナッシュ均衡へと追い込む。だが、この罠は宿命ではない。繰り返し、評判、強制力のある規則、そして開かれたコミュニケーションは、いずれも利得を動かし、長期的には協調をより賢い賭けにしうる。それはロバート・アクセルロッドのトーナメントや、単純なしっぺ返し戦略の成功が示すとおりだ。冷戦の兵器庫から価格競争、乱獲された海、そして炭素排出をめぐる世界的な争いに至るまで、同じ静かな論理が現れ続ける。このジレンマを見抜くことを学べば、なぜ信頼がこれほど壊れやすいのか、なぜ制度が存在するのか、そしてなぜ全員に明らかに分別あることをさせるのが、私たちが直面する最も古く最も難しい問題のひとつなのかについて、より鋭い視点を得られるだろう。

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free