O Dilema do Prisioneiro: O Jogo Que Explica o Mundo

Dois suspeitos são presos após um assalto e trancados em salas separadas. A polícia tem provas suficientes para condenar ambos por uma acusação menor, mas não pela mais grave, então faz a cada prisioneiro a mesma proposta discreta. Delate o seu parceiro e você sai livre enquanto ele cumpre a pena longa. Fique em silêncio enquanto ele fala, e você é quem leva a culpa. Se os dois falarem, cada um pega uma pena média. Se ambos ficarem em silêncio, cada um pega apenas a pena leve. Nenhum prisioneiro consegue ver o outro, falar com o outro ou confiar no outro. Cada um tem apenas alguns minutos para decidir.

Parece o roteiro de um filme policial, e versões disso já foram exatamente isso. Mas essa pequena cena, formalizada por matemáticos da RAND Corporation por volta de 1950 e batizada com seu nome memorável pelo matemático de Princeton Albert Tucker, tornou-se um dos enigmas mais estudados da ciência moderna. O dilema do prisioneiro é enganosamente simples, mas captura algo perturbador sobre cooperação, confiança e interesse próprio que aparece em toda parte, das corridas armamentistas às negociações climáticas e ao preço de um tanque de gasolina. Ele é, num sentido bem real, um jogo que explica o mundo.

A Montagem Clássica

O poder do dilema está em sua estrutura precisa. Cada prisioneiro tem duas escolhas: cooperar (um com o outro, ficando em silêncio) ou desertar (traindo o outro para a polícia). Isso gera quatro resultados possíveis. Se ambos cooperam, cada um pega uma pena leve, digamos um ano. Se ambos desertam, cada um pega uma pena mais pesada, digamos três anos. Mas é nos casos assimétricos que a armadilha se fecha. Se um deserta enquanto o outro permanece leal, o traidor sai livre e o parceiro leal cumpre a pena completa, digamos cinco anos.

Coloque esses resultados lado a lado e uma lógica estranha emerge. Do ponto de vista de qualquer dos prisioneiros, o melhor resultado pessoal é desertar enquanto o outro coopera: você sai sem nada nas costas. O pior é cooperar enquanto o outro deserta: você cumpre a pena mais longa e o seu parceiro vai rindo o caminho todo até em casa. O enigma é que aquilo que parece racional para cada indivíduo produz um resultado que é ruim para ambos. O dilema não é que os prisioneiros sejam burros. É que eles são espertos, e a sua esperteza os aprisiona.

Por Que Jogadores Racionais Desertam

Percorra o raciocínio do jeito que cada prisioneiro faria. Suponha que você assuma que o seu parceiro vai ficar em silêncio. Então a sua melhor jogada é desertar, porque sair livre é melhor do que um ano de prisão. Agora suponha que o seu parceiro fale, em vez disso. A sua melhor jogada continua sendo desertar, porque três anos é melhor do que cinco. Não importa o que a outra pessoa faça, você sai na frente traindo-a. Na linguagem da teoria dos jogos, a deserção é uma estratégia dominante: é a melhor escolha em todos os cenários possíveis.

Ambos os prisioneiros fazem o mesmo cálculo, então ambos desertam, e ambos terminam com a pena mais pesada de três anos. No entanto, se os dois tivessem ficado em silêncio, cada um teria cumprido apenas um ano. Eles raciocinaram até chegar a um resultado pior do que aquele que tinham à disposição. Essa combinação de traição mútua é o que os economistas chamam de equilíbrio de Nash, em homenagem ao matemático John Nash, cujo trabalho sobre esses problemas foi central para o seu Prêmio Nobel de economia em 1994. Um equilíbrio de Nash é um estado em que nenhum jogador consegue melhorar o seu resultado mudando de estratégia sozinho. A deserção mútua é estável precisamente porque nenhum prisioneiro consegue melhorar mudando para o silêncio enquanto o outro continua traindo.

A lição mais profunda é o abismo entre a racionalidade individual e o benefício coletivo. O resultado que ambos os jogadores querem (a cooperação mútua) não é estável, porque cada um é tentado a abocanhar a vantagem extra da traição. A confiança, nesse mundo reduzido ao osso, não é tanto ingênua quanto impossível de impor. Não há contrato, não há aperto de mãos, não há jeito de punir o trapaceiro depois do fato consumado. E sem imposição, o interesse próprio puxa implacavelmente para o pior resultado compartilhado.

Quando o Jogo se Repete

A história muda dramaticamente quando o jogo é disputado mais de uma vez. Uma única rodada recompensa a traição, mas relações reais, entre países, empresas ou vizinhos, costumam envolver encontros repetidos. Esse é o dilema do prisioneiro iterado, e ele abre a porta para a cooperação, porque a traição de hoje pode ser punida amanhã.

A demonstração mais famosa veio do cientista político Robert Axelrod, que, no fim dos anos 1970 e início dos anos 1980, convidou pesquisadores a submeterem estratégias de computador para competirem em rodadas repetidas do jogo umas contra as outras. O vencedor surpreendente foi um dos programas mais simples inscritos, chamado Olho por Olho (Tit for Tat), submetido pelo matemático Anatol Rapoport. Sua regra era quase infantil: coopere na primeira jogada, depois faça o que quer que o seu oponente tenha feito da última vez. Seja gentil para começar, retalie contra a traição, mas perdoe assim que o outro lado voltar a cooperar. Essa mistura de gentileza, retaliação e perdão superou estratégias muito mais elaboradas e agressivas.

Axelrod tirou uma lição abrangente desses torneios: a cooperação pode emergir entre jogadores movidos pelo interesse próprio, mas só sob as condições certas. Ajuda quando o futuro importa o suficiente (quando os jogadores esperam se reencontrar), quando a deserção é punida e quando o bom comportamento é recompensado. Um eco vívido no mundo real apareceu nas trincheiras da Primeira Guerra Mundial, onde soldados inimigos às vezes acomodavam-se em tréguas informais de "viver e deixar viver", segurando o fogo desde que o outro lado fizesse o mesmo. Historiadores e teóricos dos jogos leram isso como cooperação iterada em ação, sustentada pelo simples conhecimento de que os mesmos inimigos se enfrentariam de novo no dia seguinte.

Dilemas Escondidos à Plena Vista

Uma vez que você aprende o formato do dilema do prisioneiro, começa a vê-lo em toda parte. Muitos dos problemas mais difíceis da economia e da política compartilham a sua estrutura: cada parte se beneficiaria da cooperação, mas cada uma é tentada a desertar, e assim todos terminam piores.

A corrida armamentista. Durante a Guerra Fria, os Estados Unidos e a União Soviética enfrentaram exatamente essa lógica. Ambas as nações teriam ficado mais seguras e mais ricas gastando menos com armas. Mas se uma desarmasse enquanto a outra se fortalecia, quem desarmasse ficaria vulnerável. Então ambas continuaram construindo, despejando recursos imensos em arsenais que nenhum dos lados conseguia encolher com segurança sozinho. Deserção mútua, a um custo estarrecedor.

Guerras de preços. Dois postos de gasolina rivais na mesma esquina ganhariam mais mantendo os preços altos. Mas cada um é tentado a cobrar menos que o outro para conquistar clientes. Quando ambos cortam preços, terminam numa guerra de preços que encolhe o lucro de todos. É por isso que os cartéis são instáveis por dentro: o incentivo para trapacear no preço combinado está embutido na estrutura, antes mesmo de os reguladores entrarem em cena.

Uso excessivo de recursos compartilhados. Quando muitas pessoas compartilham um recurso comum, um pesqueiro, um campo de pastagem, uma atmosfera limpa, cada indivíduo ganha pegando um pouco mais, enquanto o custo do esgotamento se espalha por todos. O resultado pode ser a ruína coletiva, um padrão que o ecologista Garrett Hardin popularizou em 1968 como a "tragédia dos comuns". É o dilema do prisioneiro ampliado para multidões.

Mudança climática. Talvez a maior versão do dilema hoje sejam as emissões globais. Todo país se beneficiaria de um clima estável, mas reduzir emissões é caro, e qualquer nação isolada é tentada a deixar as outras carregarem o fardo enquanto continua crescendo. A recompensa pela deserção (energia mais barata agora) é imediata; o custo é compartilhado, adiado e global. É exatamente por isso que os acordos climáticos se apoiam tanto em monitoramento, prestação de contas e compromissos mútuos, a maquinaria do mundo real para transformar uma tentação de uma só jogada num jogo repetido com consequências.

Como Escapamos da Armadilha

Se o dilema fosse inescapável, a sociedade humana mal conseguiria funcionar. O fato de cooperarmos de algum modo, de cumprirmos contratos, pagarmos impostos e pararmos no sinal vermelho, nos diz que a armadilha tem saídas. A teoria dos jogos e a economia apontam várias.

Repetição e reputação são as primeiras. Quando as pessoas esperam negociar de novo umas com as outras, a traição carrega um custo futuro. Um comerciante que engana um cliente pode perder muitos. Os marketplaces online se apoiam fortemente nisso, e é por isso que existem avaliações de vendedores e sistemas de resenhas: eles transformam transações anônimas de uma só jogada em algo mais próximo de um jogo repetido em que a reputação está em jogo.

Imposição é a segunda. Contratos, leis, tribunais e polícia existem precisamente para mudar os resultados, tornando a traição cara o suficiente para que a cooperação se torne a escolha racional. Um acordo vinculante faz o que os dois prisioneiros não conseguiram: permite que as partes se comprometam a cooperar e confiem que a deserção será punida.

Comunicação e confiança também importam. O dilema original parte do princípio de que os prisioneiros não podem se falar. Permita que eles negociem, construam relações e sinalizem boa-fé, e a cooperação se torna muito mais fácil de sustentar. Boa parte da diplomacia, das negociações comerciais aos tratados de controle de armas, é o trabalho lento de converter um dilema do prisioneiro num problema que os dois lados de fato conseguem resolver juntos.

Vale a pena ser honesto quanto aos limites aqui. O dilema do prisioneiro é um modelo, uma simplificação deliberada. Pessoas reais não são calculadoras perfeitamente racionais; elas sentem lealdade, raiva, culpa e senso de justiça, e os experimentos mostram de forma consistente que os humanos cooperam mais do que o frio interesse próprio sozinho preveria. Os cientistas ainda debatem exatamente por quê, com explicações que vão de instintos de reciprocidade evoluídos a normas culturais de confiança. O modelo não captura todo o comportamento humano. O que ele captura é a tensão subjacente, a razão pela qual a cooperação é difícil mesmo quando todos se beneficiariam dela.

Principais conclusões

O dilema do prisioneiro perdura porque destila uma verdade dura em quatro números dentro de uma caixa: o que é melhor para cada pessoa individualmente pode ser o pior para todos coletivamente. Num único encontro, o interesse próprio racional leva os jogadores a se trair por meio de uma estratégia dominante de deserção, encalhando-os num equilíbrio de Nash que deixa ambos piores do que se tivessem cooperado. Mas a armadilha não é destino. Repetição, reputação, regras que podem ser impostas e comunicação aberta podem todas deslocar os resultados e tornar a cooperação a aposta mais inteligente no longo prazo, como sugerem os torneios de Robert Axelrod e o sucesso das estratégias simples de Olho por Olho. Dos arsenais da Guerra Fria às guerras de preços, aos oceanos sobrepescados e à luta global contra as emissões de carbono, a mesma lógica silenciosa não para de reaparecer. Aprenda a identificar o dilema, e você ganha uma lente mais nítida sobre por que a confiança é tão frágil, por que as instituições existem e por que fazer com que todos façam a coisa obviamente sensata é um dos problemas mais antigos e mais difíceis que enfrentamos.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free