Le dilemme du prisonnier : le jeu qui explique le monde

Deux suspects sont arrêtés après un cambriolage et enfermés dans des pièces séparées. La police dispose de preuves suffisantes pour les condamner tous les deux pour un délit mineur, mais pas pour le délit grave : elle fait donc à chaque prisonnier la même offre, à voix basse. Dénonce ton complice et tu sors libre tandis qu'il purge la longue peine. Garde le silence pendant qu'il parle, et c'est toi qui paies à sa place. Si vous parlez tous les deux, vous écopez chacun d'une peine moyenne. Si vous gardez le silence tous les deux, vous n'écopez chacun que de la peine légère. Aucun des deux prisonniers ne peut voir l'autre, lui parler, ni lui faire confiance. Chacun n'a que quelques minutes pour décider.

Cela ressemble au point de départ d'un film policier, et certaines versions l'ont d'ailleurs été. Mais cette petite scène, formalisée par des mathématiciens de la RAND Corporation vers 1950 et dotée de son nom mémorable par le mathématicien de Princeton Albert Tucker, est devenue l'une des énigmes les plus étudiées de la science moderne. Le dilemme du prisonnier est trompeusement simple, et pourtant il saisit quelque chose de troublant à propos de la coopération, de la confiance et de l'intérêt personnel, quelque chose que l'on retrouve partout, des courses aux armements aux négociations climatiques en passant par le prix d'un plein d'essence. C'est, au sens propre, un jeu qui explique le monde.

Le scénario classique

La force du dilemme réside dans sa structure précise. Chaque prisonnier a deux choix : coopérer (l'un avec l'autre, en gardant le silence) ou trahir (en dénonçant l'autre à la police). Cela donne quatre issues possibles. Si tous deux coopèrent, ils écopent chacun d'une peine légère, disons un an. Si tous deux trahissent, ils écopent chacun d'une peine plus lourde, disons trois ans. Mais c'est dans les cas asymétriques que le piège se referme. Si l'un trahit pendant que l'autre reste loyal, le traître sort libre et le partenaire loyal purge la peine entière, disons cinq ans.

Mettez ces gains côte à côte et une étrange logique émerge. Du point de vue de chaque prisonnier, le meilleur résultat personnel est de trahir pendant que l'autre coopère : vous repartez sans rien. Le pire est de coopérer pendant que l'autre trahit : vous purgez la peine la plus longue tandis que votre partenaire rentre chez lui en riant. Le paradoxe, c'est que ce qui paraît rationnel pour chaque individu produit un résultat mauvais pour les deux. Le dilemme ne tient pas à la bêtise des prisonniers. Il tient à leur intelligence, et c'est leur intelligence qui les piège.

Pourquoi des joueurs rationnels trahissent

Suivez le raisonnement tel que chaque prisonnier le ferait. Supposons que vous partiez du principe que votre partenaire garde le silence. Alors votre meilleur coup est de trahir, car sortir libre vaut mieux qu'un an de prison. Supposons maintenant que votre partenaire parle. Votre meilleur coup reste de trahir, car trois ans valent mieux que cinq. Quoi que fasse l'autre, vous vous en sortez mieux en le trahissant. Dans le langage de la théorie des jeux, la trahison est une stratégie dominante : c'est le meilleur choix dans chaque scénario possible.

Les deux prisonniers font le même calcul, donc tous deux trahissent, et tous deux se retrouvent avec la peine la plus lourde de trois ans. Pourtant, s'ils avaient gardé le silence tous les deux, ils n'auraient écopé chacun que d'un an. Ils ont raisonné jusqu'à aboutir à une issue pire que celle qui s'offrait à eux. Cette combinaison de trahison mutuelle est ce que les économistes appellent un équilibre de Nash, du nom du mathématicien John Nash, dont les travaux sur ces problèmes ont été au cœur de son prix Nobel d'économie de 1994. Un équilibre de Nash est un état où aucun joueur ne peut améliorer son résultat en changeant seul de stratégie. La trahison mutuelle est stable précisément parce qu'aucun prisonnier ne peut faire mieux en revenant au silence tant que l'autre continue de trahir.

La leçon plus profonde, c'est l'écart entre la rationalité individuelle et le bénéfice collectif. L'issue que les deux joueurs souhaitent (la coopération mutuelle) n'est pas stable, car chacun est tenté de s'emparer de l'avantage supplémentaire que procure la trahison. La confiance, dans ce monde dépouillé, n'est pas tant naïve qu'impossible à faire respecter. Il n'y a ni contrat, ni poignée de main, ni moyen de punir un tricheur après coup. Et sans mécanisme de contrainte, l'intérêt personnel tire inlassablement vers la pire issue commune.

Quand le jeu se répète

L'histoire change radicalement lorsque le jeu se joue plus d'une fois. Une seule manche récompense la trahison, mais les relations réelles, entre pays, entreprises ou voisins, impliquent généralement des rencontres répétées. C'est le dilemme du prisonnier itéré, et il ouvre la porte à la coopération, car la trahison d'aujourd'hui peut être punie demain.

La démonstration la plus célèbre est venue du politologue Robert Axelrod, qui, à la fin des années 1970 et au début des années 1980, a invité des chercheurs à soumettre des stratégies informatiques destinées à s'affronter au fil de manches répétées du jeu. Le vainqueur surprise fut l'un des programmes les plus simples proposés, baptisé Tit for Tat (« donnant donnant »), soumis par le mathématicien Anatol Rapoport. Sa règle était presque enfantine : coopérer au premier coup, puis faire exactement ce que l'adversaire a fait la fois précédente. Se montrer gentil pour commencer, riposter à la trahison, mais pardonner dès que l'autre coopère de nouveau. Ce mélange de gentillesse, de riposte et de pardon a surpassé des stratégies bien plus élaborées et agressives.

Axelrod a tiré une large leçon de ces tournois : la coopération peut émerger entre des joueurs égoïstes, mais seulement dans les bonnes conditions. Elle est favorisée lorsque l'avenir compte suffisamment (lorsque les joueurs s'attendent à se revoir), lorsque la trahison est punie et lorsque le bon comportement est récompensé. Un écho frappant dans le monde réel est apparu dans les tranchées de la Première Guerre mondiale, où des soldats ennemis s'installaient parfois dans des trêves informelles de « vivre et laisser vivre », retenant leur feu tant que l'autre camp faisait de même. Historiens comme théoriciens des jeux y ont vu une coopération itérée à l'œuvre, entretenue par le simple savoir que les mêmes ennemis se feraient de nouveau face le lendemain.

Des dilemmes cachés en pleine lumière

Une fois que vous avez compris la forme du dilemme du prisonnier, vous commencez à le voir partout. Bon nombre des problèmes les plus ardus de l'économie et de la politique partagent sa structure : chaque partie aurait intérêt à coopérer, et pourtant chacune est tentée de trahir, si bien que tout le monde finit perdant.

La course aux armements. Pendant la guerre froide, les États-Unis et l'Union soviétique se sont heurtés exactement à cette logique. Les deux nations auraient été plus en sécurité et plus riches en dépensant moins en armes. Mais si l'une désarmait pendant que l'autre s'armait, celle qui désarmait se retrouvait vulnérable. Les deux ont donc continué à s'armer, déversant d'immenses ressources dans des arsenaux qu'aucun camp ne pouvait réduire seul en toute sécurité. Une trahison mutuelle, à un coût vertigineux.

Les guerres de prix. Deux stations-service rivales au même carrefour gagneraient toutes deux davantage en maintenant des prix élevés. Mais chacune est tentée de casser les prix de l'autre pour attirer les clients. Quand toutes deux baissent leurs prix, elles finissent dans une guerre de prix qui rogne les profits de tout le monde. C'est pourquoi les ententes sont instables de l'intérieur : l'incitation à tricher sur le prix convenu est inscrite dans la structure même, avant même que les régulateurs n'entrent en jeu.

La surexploitation des ressources partagées. Lorsque de nombreuses personnes partagent une ressource commune, une zone de pêche, un pâturage, une atmosphère propre, chaque individu gagne à en prendre un peu plus, tandis que le coût de l'épuisement se répartit sur tout le monde. Le résultat peut être une ruine collective, un schéma que l'écologue Garrett Hardin a popularisé en 1968 sous le nom de « tragédie des biens communs ». C'est le dilemme du prisonnier transposé à l'échelle des foules.

Le changement climatique. La plus vaste version du dilemme aujourd'hui est peut-être celle des émissions mondiales. Chaque pays aurait intérêt à un climat stable, et pourtant réduire les émissions coûte cher, et toute nation prise isolément est tentée de laisser les autres porter le fardeau pendant qu'elle continue de croître. La récompense de la trahison (une énergie moins chère maintenant) est immédiate ; le coût est partagé, différé et planétaire. C'est précisément pour cela que les accords climatiques s'appuient si fortement sur le suivi, la déclaration et les engagements mutuels, les rouages concrets qui transforment une tentation ponctuelle en un jeu répété assorti de conséquences.

Comment échapper au piège

Si le dilemme était inéluctable, la société humaine pourrait à peine fonctionner. Le fait même que nous coopérions, que nous respections les contrats, payions nos impôts et nous arrêtions aux feux rouges, nous indique que le piège a des issues. La théorie des jeux et l'économie en désignent plusieurs.

La répétition et la réputation viennent en premier. Quand les gens s'attendent à traiter de nouveau les uns avec les autres, la trahison a un coût futur. Un marchand qui escroque un client peut en perdre beaucoup. Les places de marché en ligne s'appuient lourdement là-dessus, et c'est pourquoi les notes des vendeurs et les systèmes d'avis existent : ils transforment des transactions anonymes et uniques en quelque chose de plus proche d'un jeu répété où la réputation est en jeu.

La contrainte vient en deuxième. Les contrats, les lois, les tribunaux et la police existent précisément pour modifier les gains, en rendant la trahison assez coûteuse pour que la coopération devienne le choix rationnel. Un accord contraignant fait ce que les deux prisonniers ne pouvaient pas faire : il permet aux parties de s'engager à coopérer et d'avoir la certitude que la trahison sera punie.

La communication et la confiance comptent elles aussi. Le dilemme d'origine suppose que les prisonniers ne peuvent pas se parler. Permettez-leur de négocier, de nouer des relations et de manifester leur bonne foi, et la coopération devient bien plus facile à maintenir. Une grande part de la diplomatie, des négociations commerciales aux traités de contrôle des armements, consiste en ce lent travail de conversion d'un dilemme du prisonnier en un problème que deux camps peuvent réellement résoudre ensemble.

Il vaut la peine d'être honnête quant aux limites de tout cela. Le dilemme du prisonnier est un modèle, une simplification délibérée. Les gens réels ne sont pas des calculateurs parfaitement rationnels ; ils ressentent la loyauté, la colère, la culpabilité et le sens de l'équité, et les expériences montrent invariablement que les humains coopèrent plus souvent que le seul intérêt personnel froid ne le laisserait prévoir. Les scientifiques débattent encore des raisons exactes, avec des explications qui vont des instincts de réciprocité issus de l'évolution aux normes culturelles de confiance. Le modèle ne saisit pas tout le comportement humain. Ce qu'il saisit, c'est la tension sous-jacente, la raison pour laquelle la coopération est difficile même quand tout le monde aurait à y gagner.

Points clés à retenir

Le dilemme du prisonnier perdure parce qu'il distille une vérité dure en quatre chiffres dans une case : ce qui est le meilleur pour chaque personne prise individuellement peut être le pire pour tout le monde collectivement. Lors d'une seule rencontre, l'intérêt personnel rationnel pousse les joueurs à se trahir mutuellement par une stratégie dominante de trahison, les enfermant dans un équilibre de Nash qui les laisse tous deux en plus mauvaise posture que s'ils avaient coopéré. Mais le piège n'est pas une fatalité. La répétition, la réputation, des règles applicables et une communication ouverte peuvent toutes déplacer les gains et faire de la coopération le pari le plus avisé à long terme, comme le suggèrent les tournois de Robert Axelrod et le succès des simples stratégies « donnant donnant ». Des arsenaux de la guerre froide aux guerres de prix, des océans surexploités à la lutte mondiale contre les émissions de carbone, la même logique discrète ne cesse de réapparaître. Apprenez à repérer le dilemme, et vous gagnerez un regard plus aiguisé sur la raison pour laquelle la confiance est si fragile, pourquoi les institutions existent et pourquoi amener tout le monde à faire la chose manifestement sensée est l'un des problèmes les plus anciens et les plus difficiles auxquels nous soyons confrontés.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free