El dilema del prisionero: el juego que explica el mundo

Dos sospechosos son arrestados tras un robo y encerrados en habitaciones separadas. La policía tiene pruebas suficientes para condenar a ambos por un delito menor, pero no por el grave, así que le hacen a cada prisionero la misma oferta discreta. Delata a tu compañero y saldrás libre mientras él cumple la condena larga. Quédate callado mientras él habla, y serás tú quien pague el pato. Si ambos hablan, cada uno recibe una condena media. Si ambos se quedan callados, cada uno recibe solo la leve. Ninguno de los prisioneros puede ver al otro, hablar con el otro ni confiar en el otro. Cada uno tiene solo minutos para decidir.

Suena como el arranque de una película policíaca, y versiones de ello lo han sido. Pero esta pequeña escena, formalizada por matemáticos de la RAND Corporation alrededor de 1950 y bautizada con su nombre memorable por el matemático de Princeton Albert Tucker, se convirtió en uno de los rompecabezas más estudiados de la ciencia moderna. El dilema del prisionero es engañosamente simple, y sin embargo captura algo inquietante sobre la cooperación, la confianza y el interés propio que aparece por todas partes, desde las carreras armamentísticas hasta las negociaciones climáticas o el precio de un depósito de gasolina. Es, en un sentido muy real, un juego que explica el mundo.

El planteamiento clásico

El poder del dilema reside en su estructura precisa. Cada prisionero tiene dos opciones: cooperar (entre sí, quedándose callados) o traicionar (delatando al otro ante la policía). Eso da cuatro resultados posibles. Si ambos cooperan, cada uno recibe una condena leve, digamos un año. Si ambos traicionan, cada uno recibe una más dura, digamos tres años. Pero los casos asimétricos son donde la trampa se cierra de golpe. Si uno traiciona mientras el otro se mantiene leal, el traidor sale libre y el compañero leal cumple la condena completa, digamos cinco años.

Pon esas recompensas una al lado de la otra y emerge una lógica extraña. Desde el punto de vista de cualquiera de los prisioneros, el mejor resultado personal es traicionar mientras el otro coopera: te marchas sin nada que cumplir. El peor es cooperar mientras el otro traiciona: cumples la condena más larga y tu compañero se ríe de camino a casa. El enigma es que lo que parece racional para cada individuo produce un resultado que es malo para ambos. El dilema no es que los prisioneros sean tontos. Es que son astutos, y su astucia los atrapa.

Por qué los jugadores racionales traicionan

Recorre el razonamiento tal como lo haría cada prisionero. Supón que asumes que tu compañero se queda callado. Entonces tu mejor jugada es traicionar, porque salir libre supera a un año de prisión. Ahora supón que tu compañero habla en su lugar. Tu mejor jugada sigue siendo traicionar, porque tres años superan a cinco. No importa lo que haga la otra persona, sales ganando si la traicionas. En el lenguaje de la teoría de juegos, la traición es una estrategia dominante: es la mejor opción en todos los escenarios posibles.

Ambos prisioneros hacen el mismo cálculo, así que ambos traicionan, y ambos terminan con la condena más dura de tres años. Sin embargo, si ambos se hubieran quedado callados, cada uno habría cumplido solo un año. Han razonado su camino hacia un resultado peor que el que tenían disponible. Esta combinación de traición mutua es lo que los economistas llaman un equilibrio de Nash, en honor al matemático John Nash, cuyo trabajo sobre estos problemas fue central para su Premio Nobel de economía de 1994. Un equilibrio de Nash es un estado en el que ningún jugador puede mejorar su resultado cambiando de estrategia por sí solo. La traición mutua es estable precisamente porque ninguno de los prisioneros puede salir mejor parado si cambia al silencio mientras el otro sigue traicionando.

La lección más profunda es la brecha entre la racionalidad individual y el beneficio colectivo. El resultado que ambos jugadores quieren (la cooperación mutua) no es estable, porque cada uno se ve tentado a aprovechar la ventaja adicional de la traición. La confianza, en este mundo simplificado, no es tanto ingenua como imposible de hacer cumplir. No hay contrato, no hay apretón de manos, no hay forma de castigar a un tramposo después del hecho. Y sin un mecanismo de cumplimiento, el interés propio empuja sin descanso hacia el peor resultado compartido.

Cuando el juego se repite

La historia cambia radicalmente cuando el juego se juega más de una vez. Una sola ronda premia la traición, pero las relaciones reales, entre países, empresas o vecinos, suelen implicar encuentros repetidos. Este es el dilema del prisionero iterado, y abre la puerta a la cooperación, porque la traición de hoy puede castigarse mañana.

La demostración más famosa vino del politólogo Robert Axelrod, quien a finales de la década de 1970 y principios de la de 1980 invitó a investigadores a presentar estrategias informáticas para competir en rondas repetidas del juego unas contra otras. El ganador sorpresa fue uno de los programas más simples presentados, llamado Toma y daca (Tit for Tat), presentado por el matemático Anatol Rapoport. Su regla era casi infantil: cooperar en la primera jugada, luego hacer lo que tu oponente hizo la última vez. Sé amable al empezar, toma represalias contra la traición, pero perdona en cuanto la otra parte vuelva a cooperar. Esta mezcla de amabilidad, represalia y perdón superó a estrategias mucho más elaboradas y agresivas.

Axelrod extrajo una amplia lección de estos torneos: la cooperación puede surgir entre jugadores movidos por su interés propio, pero solo bajo las condiciones adecuadas. Ayuda cuando el futuro importa lo suficiente (cuando los jugadores esperan volver a encontrarse), cuando la traición se castiga y cuando el buen comportamiento se recompensa. Un eco vívido del mundo real apareció en las trincheras de la Primera Guerra Mundial, donde los soldados enfrentados a veces se asentaban en treguas informales de "vivir y dejar vivir", reteniendo el fuego mientras el otro bando hiciera lo mismo. Tanto los historiadores como los teóricos de juegos lo han interpretado como cooperación iterada en acción, sostenida por el simple conocimiento de que los mismos enemigos volverían a enfrentarse al día siguiente.

Dilemas escondidos a plena vista

Una vez que aprendes la forma del dilema del prisionero, empiezas a verlo por todas partes. Muchos de los problemas más difíciles en economía y política comparten su estructura: cada parte se beneficiaría de la cooperación, pero cada una se ve tentada a traicionar, y así todos terminan peor.

La carrera armamentística. Durante la Guerra Fría, Estados Unidos y la Unión Soviética se enfrentaron exactamente a esta lógica. Ambas naciones habrían estado más seguras y más prósperas gastando menos en armas. Pero si una se desarmaba mientras la otra se reforzaba, la que se desarmara quedaría vulnerable. Así que ambas siguieron construyendo, volcando vastos recursos en arsenales que ninguno de los dos bandos podía reducir con seguridad por sí solo. Traición mutua, a un costo asombroso.

Las guerras de precios. Dos gasolineras rivales en la misma esquina ganarían más manteniendo los precios altos. Pero cada una se ve tentada a bajar los del otro para captar clientes. Cuando ambas bajan los precios, terminan en una guerra de precios que reduce las ganancias de todos. Por eso los cárteles son inestables desde dentro: el incentivo para hacer trampa con el precio acordado está incorporado en la estructura, incluso antes de que intervengan los reguladores.

El abuso de recursos compartidos. Cuando muchas personas comparten un recurso común, una pesquería, un campo de pastoreo, una atmósfera limpia, cada individuo gana tomando un poco más, mientras que el costo del agotamiento se reparte entre todos. El resultado puede ser la ruina colectiva, un patrón que el ecólogo Garrett Hardin popularizó en 1968 como la "tragedia de los comunes". Es el dilema del prisionero ampliado a las multitudes.

El cambio climático. Quizás la mayor versión del dilema hoy en día sean las emisiones globales. Todos los países se beneficiarían de un clima estable, pero reducir las emisiones es costoso, y cualquier nación individual se ve tentada a dejar que otras carguen con el peso mientras ella sigue creciendo. La recompensa por traicionar (energía más barata ahora) es inmediata; el costo es compartido, retrasado y global. Esto es exactamente por qué los acuerdos climáticos se apoyan tanto en el seguimiento, la presentación de informes y los compromisos mutuos, la maquinaria del mundo real para convertir una tentación de una sola vez en un juego repetido con consecuencias.

Cómo escapamos de la trampa

Si el dilema fuera inevitable, la sociedad humana apenas podría funcionar. El hecho de que cooperemos en absoluto, que cumplamos contratos, paguemos impuestos y nos detengamos en los semáforos en rojo, nos dice que la trampa tiene salidas. La teoría de juegos y la economía señalan varias.

La repetición y la reputación son las primeras. Cuando las personas esperan volver a tratar entre sí, la traición acarrea un costo futuro. Un comerciante que engaña a un cliente puede perder a muchos. Los mercados en línea se apoyan mucho en esto, y por eso existen las calificaciones de vendedores y los sistemas de reseñas: convierten las transacciones anónimas de una sola vez en algo más cercano a un juego repetido donde está en juego la reputación.

El cumplimiento forzoso es lo segundo. Los contratos, las leyes, los tribunales y la policía existen precisamente para cambiar las recompensas, haciendo la traición lo bastante costosa como para que la cooperación se convierta en la opción racional. Un acuerdo vinculante hace lo que los dos prisioneros no pudieron: permite a las partes comprometerse a cooperar y confiar en que la traición será castigada.

La comunicación y la confianza también importan. El dilema original asume que los prisioneros no pueden hablar. Permíteles negociar, construir relaciones y dar señales de buena fe, y la cooperación se vuelve mucho más fácil de sostener. Gran parte de la diplomacia, desde las negociaciones comerciales hasta los tratados de control de armas, es el lento trabajo de convertir un dilema del prisionero en un problema que dos partes pueden de verdad resolver juntas.

Vale la pena ser honestos sobre los límites aquí. El dilema del prisionero es un modelo, una simplificación deliberada. Las personas reales no son calculadoras perfectamente racionales; sienten lealtad, ira, culpa y sentido de justicia, y los experimentos muestran de forma consistente que los humanos cooperan más a menudo de lo que predeciría el frío interés propio por sí solo. Los científicos aún debaten exactamente por qué, con explicaciones que van desde instintos evolucionados de reciprocidad hasta normas culturales de confianza. El modelo no captura todo el comportamiento humano. Lo que captura es la tensión subyacente, la razón por la que la cooperación es difícil incluso cuando todos se beneficiarían de ella.

Conclusiones clave

El dilema del prisionero perdura porque destila una verdad difícil en cuatro números dentro de una casilla: lo que es mejor para cada persona individualmente puede ser lo peor para todos colectivamente. En un solo encuentro, el interés propio racional lleva a los jugadores a traicionarse mutuamente a través de una estrategia dominante de traición, dejándolos en un equilibrio de Nash que los deja peor que si hubieran cooperado. Pero la trampa no es un destino. La repetición, la reputación, las reglas de cumplimiento obligatorio y la comunicación abierta pueden, todas ellas, modificar las recompensas y hacer de la cooperación la apuesta más inteligente a largo plazo, como sugieren los torneos de Robert Axelrod y el éxito de las simples estrategias de Toma y daca. Desde los arsenales de la Guerra Fría hasta las guerras de precios, los océanos sobreexplotados y la lucha global por las emisiones de carbono, la misma lógica silenciosa sigue reapareciendo. Aprende a detectar el dilema, y obtendrás una lente más afilada sobre por qué la confianza es tan frágil, por qué existen las instituciones y por qué lograr que todos hagan lo obviamente sensato es uno de los problemas más antiguos y difíciles que enfrentamos.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free