Martes, 05 de abril de 2011

Dilema del prisionero
?Cooperar?n los dos prisioneros para minimizar la p?rdida total de libertad o uno de ellos, confiando en la cooperaci?n del otro, lo traicionar? para quedar en libertad?

El?dilema del prisionero?es un problema fundamental de la?teor?a de juegos?que muestra que dos personas pueden no cooperar incluso si en ello va el inter?s de ambas. Fue desarrollado originariamente por Merrill Flood y Melvin Dresher mientras trabajaban en RAND en 1950. Albert W. Tucker formaliz? el juego con la frase sobre las recompensas penitenciarias y le dio el nombre del "dilema del prisionero" (Poundstone, 1995).

Es un ejemplo de problema de?suma no nula. Las t?cnicas de an?lisis de la teor?a de juegos est?ndar, por ejemplo determinar elequilibrio de Nash, pueden llevar a cada jugador a escoger traicionar al otro, pero ambos jugadores obtendr?an un resultado mejor si colaborasen.

En el?dilema del prisionero iterado, la cooperaci?n puede obtenerse como un resultado de equilibrio. Aqu? se juega repetidamente, por lo que, cuando se repite el juego, se ofrece a cada jugador la oportunidad de castigar al otro jugador por la no cooperaci?n en juegos anteriores. As?, el incentivo para defraudar puede ser superado por la amenaza del castigo, lo que conduce a un resultado cooperativo.


La enunciaci?n cl?sica del dilema del prisionero es:?
El dilema del prisionero cl?sico

La polic?a arresta a dos sospechosos. No hay pruebas suficientes para condenarlos y, tras haberlos separado, los visita a cada uno y les ofrece el mismo trato. Si uno confiesa y su c?mplice no, el c?mplice ser? condenado a la pena total, diez a?os, y el primero ser? liberado. Si uno calla y el c?mplice confiesa, el primero recibir? esa pena y ser? el c?mplice quien salga libre. Si ambos confiesan, ambos ser?n condenados a seis a?os. Si ambos lo niegan, todo lo que podr?n hacer ser? encerrarlos durante seis meses por un cargo menor.

Lo que puede resumirse como:

?T? confiesasT? lo niegas
?l confiesa Ambos son condenados a 6 a?os. ?l sale libre; t? eres condenado a 10 a?os
?l lo niega ?l es condenado a 10 a?os; t? sales libre Ambos son condenados a 6 meses.

Vamos a suponer que ambos prisioneros son completamente?ego?stas?y su ?nica meta es reducir su propia estancia en la c?rcel. Como prisioneros tienen dos opciones: cooperar con su c?mplice y permanecer callado, o traicionar a su c?mplice y confesar. El resultado de cada?elecci?n?depende de la elecci?n del c?mplice. Por desgracia, uno no conoce qu? ha elegido hacer el otro. Incluso si pudiesen hablar entre s?, no podr?an estar seguros de confiar mutuamente.

Si uno espera que el c?mplice escoja cooperar con ?l y permanecer en silencio, la opci?n ?ptima para el primero ser?a confesar, lo que significar?a que ser?a liberado inmediatamente, mientras el c?mplice tendr? que cumplir una condena de 10 a?os. Si espera que su c?mplice decida confesar, la mejor opci?n es confesar tambi?n, ya que al menos no recibir? la condena completa de 10 a?os, y s?lo tendr? que esperar 6, al igual que el c?mplice. Y, sin embargo, si ambos decidiesen cooperar y permanecer en silencio, ambos ser?an liberados en s?lo 6 meses.

Confesar es una?estrategia dominante?para ambos jugadores. Sea cual sea la elecci?n del otro jugador, pueden reducir siempre su sentencia confesando. Por desgracia para los prisioneros, esto conduce a un resultado regular, en el que ambos confiesan y ambos reciben largas condenas. Aqu? se encuentra el punto clave del dilema. El resultado de las interacciones individuales produce un resultado que no es ?ptimo -en el sentido de?eficiencia de Pareto-; existe una situaci?n tal que la utilidad de uno de los detenidos podr?a mejorar (incluso la de ambos) sin que esto implique un empeoramiento para el resto. En otras palabras, el resultado en el cual ambos detenidos no confiesan domina al resultado en el cual los dos eligen confesar.

Si se razona desde la perspectiva del inter?s ?ptimo del grupo (de los dos prisioneros), el resultado correcto ser?a que ambos cooperasen, ya que esto reducir?a el tiempo total de condena del grupo a un total de un a?o. Cualquier otra decisi?n ser?a peor para ambos si se consideran conjuntamente. A pesar de ello, si siguen sus propios intereses ego?stas, cada uno de los dos prisioneros recibir? una sentencia dura.

Si has tenido una oportunidad para castigar al otro jugador por confesar, entonces un resultado cooperativo puede mantenerse. La forma iterada de este juego (mencionada m?s abajo) ofrece una oportunidad para este tipo de castigo. En ese juego, si el c?mplice?traiciona?y confiesa una vez, se le puede castigar traicion?ndolo a la pr?xima. As?, el?juego iterado?ofrece una opci?n de castigo que est? ausente en el modo cl?sico del juego.

Una opci?n es considerar este dilema como una simple "m?quina de la verdad". El jugador puede tomar no dos, sino tres opciones: cooperar, no cooperar o, sencillamente, no jugar. La respuesta l?gica en este caso es "no jugar", pues el prisionero carece de informaci?n suficiente para jugar correctamente: no sabe cu?l ser? la opci?n de su compa?ero. No hay tal dilema, pues no es posible el juego. Si juega, se trata de una "apuesta", m?s que de una soluci?n l?gica.

Pensemos tambi?n que el prisionero en realidad est? "jugando" con su carcelero, no con el otro prisionero. El carcelero le ofrece una opci?n. Para ?l, la mayor ganancia ser?a condenar al prisionero a la pena mayor, pues ?se es su trabajo. Si logra condenar a los dos a la m?xima pena, doble ganancia. El prisionero sabe eso, en el fondo. S?lo "jugar?a" si supiera con todo certeza que el polic?a cumplir?a su palabra a pesar de su confesi?n. Pero tampoco lo sabe. En realidad, prisionero-carcelero y prisionero-prisionero est?n jugando al mismo juego:encubrir?o?traicionar?(en el caso del ejemplo de los prisioneros, no concuerda el?verdad o mentira?puesto que decir la verdad ser?a traicionar).

?T? encubresT? traicionas
?l encubre M?ximo beneficio com?n T? ganas, ?l pierde
?l traiciona ?l gana, t? pierdes M?ximo perjuicio com?n

En este caso, decir la verdad equivale a cooperar, a callarse. Pero un jugador s?lo optar? por la casilla "verdad" si sabe que el otro jugador tambi?n opta por la misma soluci?n. En la vida real, eso no lo sabemos: hay que "jugar", es decir, arriesgarse. Todo se basa en la "relaci?n de confianza" existente entre los dos jugadores. Pongamos, por ejemplo, que los dos prisioneros son hermanos, con una relaci?n de confianza muy estrecha. O que lo son uno de los prisioneros y el carcelero. Entonces s? sabr?an (casi con toda seguridad, pero nunca completa) cu?l ser?a la opci?n de su compa?ero, y entonces siempre jugar?an correctamente: cooperar?an.

La ?nica soluci?n l?gica es, por tanto, decir la verdad. Y adem?s ser? la que dar? el m?ximo beneficio com?n. Este planteamiento nos lleva a la correcta soluci?n del dilema, que es decir la verdad, cooperar. Pero en este caso el error estaba en el planteamiento correcto del dilema, que no es pensar en nuestro beneficio (ser ego?sta) sino en el del "otro" (ser generoso). En este caso, jugando a "verdad" siempre conseguiremos que el "otro" gane. Si el objetivo del juego es que siempre gane el rival, hay pues una ?nica soluci?n l?gica, y que no depende de la jugada del rival.?Dilema?resuelto.

Una soluci?n "incorrecta" ser?a en el caso que el hermano traicione al hermano. Aun as?, el juego es correcto (pues todo juego tiene una y s?lo una soluci?n l?gica). Lo que ha sucedido es que ha cambiado el nombre del juego: ahora lo podr?amos llamar "Descubre al mentiroso". Hemos ganado, pues descubrimos a un mentiroso.

?T? ganasT? pierdes
?l gana Los dos dijeron la verdad ?l minti?
?l pierde T? mentiste Lo dos mintieron


Es entonces una aut?ntica "m?quina de la verdad".

El dilema del prisionero es pues siempre un juego dual; pero siempre tiene una soluci?n l?gica. Si los dos juegan l?gicamente, es decir, con honestidad, el juego es beneficioso para ambos. Si uno enga?a y el otro no, el juego se llama "Descubre al Mentiroso", y ambos vuelven a ganar.

Pero si pensamos en el Dilema como b?squeda ego?sta, y no generosa, la jugada "incorrecta" del dilema impide la iteraci?n, luego finaliza el juego. Por esa raz?n, el jugador "il?gico" siempre tendr? dos objetivos: uno, enga?ar al honesto; y dos, convencerle a posteriori de que no fue enga?ado, mediante otro ardid, para poder seguir enga??ndole. Un mentiroso siempre necesitar? otra mentira para cubrir la primera.


Este tipo de estrategias es muy com?n en la vida cotidiana y se conoce como "manipulaci?n". Para algunos, quiz?s exagerando, la pol?tica (la mala pol?tica) es el arte de la manipulaci?n continua. Y que la estrategia funcione tiene tanto que ver con la "mentira" del tramposo como la "doble ingenuidad" del honesto. Fiarse de un mentiroso no es honestidad, sino estupidez. (De ah? que la estrategia conocida como "vengativa no rencorosa", o?Toma y daca?(tit for tat) ?ver m?s adelante? sea la m?s eficaz). Pero sabemos que el ?nico resultado correcto es bueno para todos los jugadores, y ?ste s?lo sucede cuando todos dicen la verdad. Si alguien miente, enga?a o manipula, la soluci?n siempre ser? incorrecta. O, dicho de otro modo, si la soluci?n es incorrecta, es que alguien nos enga?? o nos minti?.

Un juego similar pero distinto

El cient?fico cognitivo?Douglas Hofstadter?(ver?las referencias?m?s abajo) sugiri? una vez que la gente encuentra muchas veces problemas como el dilema del prisionero m?s f?ciles de entender cuando est?n presentados como un simple juego o intercambio. Uno de los ejemplos que us? fue el de dos personas que se encuentran e intercambian bolsas cerradas, con el entendimiento de que una de ellas contiene dinero y la otra contiene un objeto que est? siendo comprado. Cada jugador puede escoger seguir el acuerdo poniendo en su bolsa lo que acord?, o puede enga?ar ofreciendo una bolsa vac?a. En este juego de intercambio el enga?o no es la mejor opci?n, pues si los dos anteponen su ego?smo al bien com?n nunca ser?n capaces de realizar un intercambio, ya que las dos personas siempre dar?n la bolsa vac?a.

Matriz de pagos del dilema del prisionero

En el mismo art?culo, Hofstadter tambi?n observ? que la matriz de pagos del dilema del prisionero puede, de hecho, escribirse de m?ltiples formas, siempre que se adhiera al siguiente principio:

T?>?R?>?C?>?P

donde?T?es la tentaci?n para traicionar (esto es, lo que obtienes cuando desertas y el otro jugador coopera);?R?es la recompensa por la cooperaci?n mutua;?C?es el castigo por la deserci?n mutua; y?P?es la?paga del primo?(esto es, lo que obtienes cuando cooperas y el otro jugador deserta).

En el caso del dilema del prisionero, la f?rmula se cumple: 0 > -0,5 > -6 > -10 (en negativo pues los n?meros corresponden a a?os de c?rcel).

Suele tambi?n cumplirse que (T?+?C)/2 <?R, y esto se requiere en el caso iterado.

Las f?rmulas anteriores aseguran que, independientemente de los n?meros exactos en cada parte de la matriz de pagos, es siempre "mejor" para cada jugador desertar, haga lo que haga el otro.

Siguiendo este principio, y simplificando el dilema del prisionero al escenario del cambio de bolsas anterior (o a un juego de dos jugadores tipo Axelrod ? ver m?s abajo), obtendremos la siguiente matriz de pagos can?nica para el dilema del prisionero, esto es, la que se suele mostrar en la literatura sobre este tema:

?CooperarDesertar
Cooperar 3, 3 -5, 5
Desertar 5, -5 -1, -1

En terminolog?a "ganancia-ganancia" la tabla ser?a similar a esta:

?CooperarDesertar
Cooperar ganancia - ganancia p?rdida sustancial - ganancia sustancial
Desertar ganancia sustancial - p?rdida sustancial p?rdida - p?rdida

?

Criterio ego?sta versus criterio del bien com?n en la matriz de resultados del dilema del prisionero

En el tratamiento del Dilema del Prisionero por lo general s?lo se considera una matriz con los resultados individuales o ego?stas pero no con los resultados conjuntos o de bien com?n, esto es, la suma de los resultados individuales.

Podemos crear una matriz de resultados extendida:

Prisionero APrisionero BPrisionero APrisionero BAmbos
No Confesar No Confesar 1 a?o de c?rcel 1 a?o de c?rcel 2 a?os de c?rcel
No Confesar Confesar 5 a?os de c?rcel 0 a?os de c?rcel 5 a?os de c?rcel
Confesar No Confesar 0 a?os de c?rcel 5 a?os de c?rcel 5 a?os de c?rcel
Confesar Confesar 3 a?os de c?rcel 3 a?os de c?rcel 6 a?os de c?rcel

A partir de esta matriz de resultados podemos utilizar un criterio del resultado conjunto o del bien com?n que produce resultados diferentes a los obtenidos por el criterio de los resultados individuales o ego?stas: La decisi?n que beneficia en forma conjunta a ambos participantes es No Confesar que resulta en un total de dos a?os de c?rcel contra cinco o seis a?os de c?rcel con las otras decisiones.

Dos importantes corolarios de este criterio son los siguientes:

? La mejor decisi?n basada en el criterio individual o ego?sta es opuesta a la decisi?n basada en el criterio conjunto o del bien com?n.

? La decisi?n conjunta o de bien com?n implica un costo individual real o de oportunidad.

Recordemos que el concepto de Costo de Oportunidad se refiere al beneficio que se deja de percibir que es diferente al desembolso de algo que se pose?a.

En este caso, el costo individual de la decisi?n altruista o de bien com?n es de un a?o de c?rcel en lugar de salir libre de manera inmediata.

N?tese que no se habla de la culpabilidad o inocencia reales de los presuntos criminales sino de la decisi?n de confesar o no hacerlo.

El efecto del cambio de criterio, del resultado individual o ego?sta al resultado conjunto o del bien com?n, produce un cambio de 180? en el an?lisis del Dilema del Prisionero.

El m?s importante corolario de este dilema es que la ?nica forma de ganar es con un cambio de valores: del ego?smo individual al altru?smo del bien com?n. Este puede ser el juego de supervivencia del planeta: o la humanidad termina en la extinci?n o sobrevive gracias al respeto al otro.

El instinto filial (amor padres-hijos) adquirido en el proceso evolutivo ha permitido la supervivencia de la especie humana, que de otra forma ya se hubiera extinguido debido a la incapacidad de los infantes humanos para sobrevivir sin la protecci?n de sus padres o substitutos; tal incapacidad es mayor en los humanos que en ninguna otra especie animal. El problema es que no existe el tiempo para adquirir por evoluci?n biol?gica un instinto social o de amor al otro. Parece que la ?nica salida es adelantarse al proceso evolutivo con la toma de conciencia y el cambio propositivo de valores de los seres humanos.

La paradoja de todo lo anterior es que para lograr el beneficio individual es menester respetar el bien com?n. El ego?smo finalmente desemboca en la auto-destrucci?n de la humanidad. Los mensajes ?ticos producto de la sabidur?a humana, desde los albores del hombre, son vigentes.

Ejemplos en la vida real

Estos ejemplos en concreto en los que intervienen prisioneros, intercambio de bolsas y cosas parecidas pueden parecer rebuscados, pero existen, de hecho, muchos ejemplos de interacciones humanas y de interacciones naturales en las que se obtiene la misma matriz de pagos. El dilema del prisionero es por ello de inter?s para ciencias sociales como econom?a, ciencia pol?tica y sociolog?a, adem?s de ciencias biol?gicas como etolog?a y biolog?a evolutiva.

En?ciencia pol?tica, dentro del campo de las?relaciones internacionales, el escenario del dilema del prisionero se usa a menudo para ilustrar el problema de dos estados involucrados en una?carrera armament?stica. Ambos razonar?n que tienen dos opciones: o incrementar el gasto militar, o llegar a un acuerdo para reducir su armamento. Ninguno de los dos estados puede estar seguro de que el otro acatar? el acuerdo; de este modo, ambos se inclinar?n hacia la expansi?n militar. La?iron?a?est? en que ambos estados parecen actuar racionalmente, pero el resultado es completamente irracional.

Otro interesante ejemplo tiene que ver con un concepto conocido de las carreras en?ciclismo, por ejemplo el?Tour de Francia. Consid?rense dos ciclistas a mitad de carrera, con elpelot?n?a gran distancia. Los dos ciclistas trabajan a menudo conjuntamente (cooperaci?n mutua) compartiendo la pesada carga de la posici?n delantera, donde no se pueden refugiar del viento. Si ninguno de los ciclistas hace un esfuerzo para permanecer delante, el pelot?n les alcanzar? r?pidamente (deserci?n mutua). Un ejemplo visto a menudo es que un s?lo ciclista haga todo el trabajo (coopere), manteniendo a ambos lejos del pelot?n. Al final, esto llevar? probablemente a una victoria del segundo ciclista (desertor) que ha tenido una carrera f?cil en la?estela?del primer corredor.

Un ejemplo adicional se puede observar en las intersecciones de dos v?as por donde circulan autos y donde ninguna tiene una preferencia sobre la otra: si todos los conductores colaboran y hacen turnos para pasar, la peque?a espera se justifica por el beneficio de no generar una congesti?n en el medio. Si alguien no colabora y el resto s?, se beneficia el "no colaborador" generando un desorden en la secuencia de turnos que perjudica a los que estaban colaborando. Por ?ltimo, cuando nadie quiere colaborar y tratan de pasar primero, se genera una gran congesti?n donde todos pierden mucho tiempo.

Por ?ltimo, la conclusi?n te?rica del dilema del prisionero es una raz?n por la cual, en muchos pa?ses, se proh?ben los acuerdos judiciales. A menudo, se aplica precisamente el escenario del dilema del prisionero: est? en el inter?s de ambos sospechosos el confesar y testificar contra el otro prisionero/sospechoso, incluso si ambos son inocentes del supuesto crimen. Se puede decir que, el peor caso se da cuando s?lo uno de ellos es culpable: no es probable que el inocente confiese, mientras que el culpable tender? a confesar y testificar contra el inocente.

El dilema del prisionero iterado

Robert Axelrod, en su libro?La evoluci?n de la cooperaci?n: el dilema del prisionero y la teor?a de juegos?(1984), estudi? una extensi?n al escenario cl?sico del dilema del prisionero que denomin? dilema del prisionero iterado (DPI). Aqu?, los participantes deben escoger una y otra vez su estrategia mutua, y tienen memoria de sus encuentros previos. Axelrod invit? a colegas acad?micos de todo el mundo a idear estrategias automatizadas para competir en un torneo de DPI. Los programas que participaron variaban ampliamente en la complejidad del algoritmo: hostilidad inicial, capacidad de perd?n y similares.

Axelrod descubri? que cuando se repiten estos encuentros durante un largo periodo de tiempo con muchos jugadores, cada uno con distintas estrategias, las estrategias "ego?stas" tend?an a ser peores a largo plazo, mientras que las estrategias "altruistas" eran mejores, juzg?ndolas ?nicamente con respecto al inter?s propio. Us? esto para mostrar un posible mecanismo que explicase lo que antes hab?a sido un dif?cil punto en la teor?a de la evoluci?n: ?c?mo puede evolucionar un comportamiento altruista desde mecanismos puramente ego?stas en la selecci?n natural?

Se descubri? que la mejor estrategia determinista era el?Toma y daca?(tit for tat, "Donde las dan, las toman"), que fue desarrollada y presentada en el torneo por?Anatol Rapoport. Era el m?s simple de todos los programas presentados, conteniendo ?nicamente cuatro l?neas de?BASIC, y fue el que gan? el concurso. La estrategia consiste simplemente en cooperar en la primera iteraci?n del juego, y despu?s de eso elegir lo que el oponente eligi? la ronda anterior. Una estrategia ligeramente mejor es "tit for tat?con capacidad de perd?n". Cuando el jugador B deserta, en la siguiente ronda el jugador A coopera a veces de todos modos con una peque?a probabilidad (del 1% al 5%). Esto permite la recuperaci?n ocasional de quedarse encerrado en un c?rculo de deserciones. La probabilidad exacta depende de la alineaci?n de los oponentes. "Toma y daca?con capacidad de perd?n" es la mejor estrategia cuando se introducen problemas de comunicaci?n en el juego. Esto significa que a veces la jugada de un jugador se transmite incorrectamente a su oponente: A coopera pero B cree que ha desertado.

Toma y daca?funcionaba, manten?a Axelrod, por dos motivos. El primero es que es "amable", esto es, comienza cooperando y s?lo deserta como respuesta a la deserci?n de otro jugador, as? que nunca es el responsable de iniciar un ciclo de deserciones mutuas. El segundo es que se le puede provocar, al responder siempre a lo que hace el otro jugador. Castiga inmediatamente a otro jugador si ?ste deserta, pero igualmente responde adecuadamente si cooperan de nuevo. Este comportamiento claro y directo significa que el otro jugador entiende f?cilmente la l?gica detr?s de las acciones de?Toma y daca, y puede por ello encontrar una forma de trabajar con ?l productivamente. No es una coincidencia que la mayor?a de las estrategias que funcionaron peor en el torneo de Axelrod fueron las que no estaban dise?adas para responder a las elecciones de otros jugadores. Contra ese tipo de jugador, la mejor estrategia es desertar siempre, ya que nunca puedes asegurarte de establecer una cooperaci?n mutua fiable.

Para el DPI, no siempre es correcto decir que una cierta estrategia es la mejor. Por ejemplo, consid?rese una poblaci?n donde todo el mundo deserta siempre, excepto por un ?nico individuo que sigue la estrategia?Toma y daca. Este individuo tiene una peque?a desventaja porque pierde la primera ronda. En una poblaci?n con un cierto porcentaje de individuos que siempre desertan y otros que siguen la estrategia?Toma y daca, la estrategia ?ptima para un individuo depende del porcentaje, y de la duraci?n del juego. Se han realizado simulaciones de poblaciones, donde mueren los individuos con puntuaciones bajas y se reproducen aquellos con puntuaciones altas. La mezcla de algoritmos en la poblaci?n final depende de la mezcla en la poblaci?n inicial.

Si un DPI va a ser iterado exactamente N veces, para alguna constante conocida N, hay otro dato interesante. El?equilibrio de Nash?es desertar siempre. Esto se prueba f?cilmente por inducci?n: El jugador A puede desertar la ?ltima ronda, ya que B no tendr? oportunidad de castigarle. Por ello, ambos desertaran la ?ltima ronda. Entonces, A puede desertar la ronda anterior, ya que B desertar? en la ?ltima sin importar lo que suceda. Y se contin?a de este modo. Para que la cooperaci?n siga siendo atractiva, el futuro debe ser indeterminado para ambos jugadores. Una soluci?n consiste en hacer aleatorio el n?mero total de rondas N.

Otro caso especial es "jugar eternamente" el dilema del prisionero. El juego se repite un n?mero infinito de rondas, y la puntuaci?n es la media (calculada apropiadamente).

El juego del dilema del prisionero es fundamental para entender ciertas teor?as de cooperaci?n y confianza humana. En la suposici?n de que las transacciones entre dos personas que requieran confianza pueden ser modelizadas por el dilema del prisionero, el comportamiento cooperativo en poblaciones puede ser modelado por una versi?n para varios jugadores e iterada del juego. Por ello ha fascinado a muchos estudiosos a lo largo de los a?os. Una estimaci?n no demasiado actualizada (Grofman and Pool, 1975) sit?a el n?mero de art?culos dedicados al mismo sobre 2.000.

Sociedades secretas en el dilema del prisionero iterado

En el vig?simo aniversario de la competici?n del dilema del prisionero iterado (2004), el equipo de la?Universidad de Southampton?gan? las primeras posiciones, venciendo entre los dem?s competidores a algoritmos modelo?Toma y daca?y sus derivados. La competici?n era de la variante del dilema del prisionero iterado con problemas de comunicaci?n (esto es, algunas veces no se comunicaban bien los movimientos al otro jugador).

En esa edici?n, se presentaron 223 competidores, de los cuales 60 fueron inscritos por Southampton. Todos eran variantes de un mismo algoritmo, y en los primeras 5 a 10 iteraciones del dilema del prisionero utilizaban sus respuestas como "saludo secreto" para identificarse entre s?. Entonces, si identificaban al otro jugador como perteneciente a la "sociedad", algunos algoritmos estaban dise?ados para sacrificarse colaborando siempre, de modo que los otros, traicion?ndolos siempre, pudiesen conseguir una puntuaci?n m?xima. Si no identificaban al otro algoritmo como perteneciente a la sociedad tras ver sus jugadas iniciales, todas las variantes le traicionaban siempre para bajar en lo posible su puntuaci?n.

Esta estrategia, aunque de discutible correspondencia con el esp?ritu del juego, ya que requiere una comunicaci?n inicial entre los participantes de la "sociedad" para decidir el formato del "saludo", se ajusta a las reglas de la competici?n. Sigui?ndola, Southampton consigui? que tres de sus participantes ocupasen las tres primeras posiciones, a costa de que muchos de sus otros algoritmos estuviesen entre los de peor puntuaci?n.

Variantes

Existen algunas variantes del juego, con diferencias sutiles pero importantes en las matrices de pago, que se muestran a continuaci?n:

Gallina

Otro importante juego de suma no nula se llama "gallina". En este caso, si tu oponente deserta, te beneficias m?s si cooperas, y ?ste es tu mejor resultado. La deserci?n mutua es el peor resultado posible (y por ello un equilibrio inestable), mientras que en el dilema del prisionero el peor resultado posible es la cooperaci?n mientras el otro jugador deserta (as? la deserci?n mutua es un equilibrio estable). En ambos juegos, la "cooperaci?n mutua" es un equilibrio inestable.

Una?matriz de pagos?t?pica ser?a:

  • Si ambos jugadores cooperan, cada uno obtiene +5.
  • Si uno coopera y el otro deserta, el primero obtiene +1 y el otro +10.
  • Si ambos desertan, cada uno obtiene -20.

Se llama "gallina" por el juego de carreras de coches. Dos jugadores corren el uno hacia el otro hacia una aparente colisi?n frontal: el primero en desviarse de la trayectoria es el gallina. Ambos jugadores evitan el choque (cooperan) o contin?an con la trayectoria (desertan). Otro ejemplo se encuentra cuando dos granjeros usan el mismo sistema de irrigaci?n en sus campos. El sistema puede ser mantenido adecuadamente por una persona, pero ambos granjeros se benefician de ello. Si un granjero no contribuye a su mantenimiento, sigue estando dentro del inter?s del otro granjero hacerlo, porque se beneficiar? haga lo que haga el otro. As?, si un granjero puede establecerse como el desertor dominante ?esto es, si su h?bito se vuelve tan enraizado que el otro hace todo el trabajo de mantenimiento? seguramente continuar? con ese comportamiento.

Juego de confianza

Un juego de confianza comparte algunas similitudes con el dilema del prisionero. Sin embargo el juego de confianza implica un juego secuencial en que un jugador decide primero su nivel de confianza en el segundo jugador. A mayor confianza mayor es el pago que se genera para el segundo jugador, quien debe despu?s decidir si si corresponde la confianza con una decisi?n que es mutuamente ben?fica para los dos. Un ejemplo cl?sico es en el que 2 jugadores inician el juego con una dotaci?n de $10 cada uno. El primer jugador debe decidir cu?nto de sus $10 enviar al jugador 2. La cantidad enviada se triplica en el camino hacia el jugador 2. Una vez el jugador 2 recibe esa cantidad triplicada, debe decidir cu?nto retornar al jugador 1. La cantidad retornada no se triplica. Claramente este juego en una sola ronda tiene un equilibrio de Nash de ($10,$10) en el que el jugador 2 deber?a quedarse con toda la cantidad recibida, y por tanto el jugador 1 no tiene incentivos a enviar dinero al jugador 2. El ?ptimo social de este juego se logra cuando el jugador env?a toda su dotaci?n al jugador 2 generando una suma total de pagos de 3x$10 + $10 = $40. En t?rminos de los pagos el juego de confianza tiene una estructura similar al dilema del prisionero, ya que la recompensa por la cooperaci?n mutua es mayor que la otorgada por la deserci?n mutua. El juego de confianza repetido es potencialmente muy estable, ya que da la m?xima recompensa a jugadores que establecen un h?bito de confianza y cooperaci?n mutua. A pesar de ello, existe el problema de que los jugadores no sean conscientes de que est? en su inter?s cooperar, o que no anticipen la reciprocidad negativa del otro jugador erosionando la reputaci?n, cooperaci?n y confianza en el proceso.

Amigo o enemigo

"Amigo o enemigo" (Friend or Foe) es un juego que se est? emitiendo actualmente en el canal de cable y sat?lite estadounidense?Game Show Network. Es un ejemplo del juego del dilema del prisionero probado en personas reales, pero en un entorno artificial. En el concurso, compiten tres pares de personas. Cuando cada pareja es eliminada, juegan a un juego del dilema del prisionero para determinar c?mo se reparten sus ganancias. Si ambos cooperan ("amigo"), comparten sus beneficios al 50%. Si uno coopera y el otro deserta ("enemigo"), el desertor se lleva todas las ganancias y el cooperador ninguna. Si ambos desertan, ninguno se lleva nada. Advierta que la matriz de pagos es ligeramente diferente de la est?ndar dada anteriormente, ya que los pagos de "ambos desertan" y el de "yo coopero y el otro deserta" son id?nticos. Esto hace que "ambos desertan" sea un equilibrio neutral, comparado con el dilema del prisionero est?ndar. Si sabes que tu oponente va a votar "enemigo", entonces tu elecci?n no afecta a tus ganancias. En cierto modo, "amigo o enemigo" se encuentra entre el dilema del prisionero y gallina.

La matriz de pagos es:

  • Si ambos jugadores cooperan, cada uno obtiene +1.
  • Si ambos desertan, cada uno obtiene 0.
  • Si t? cooperas y el otro deserta, t? te llevas +0 y ?l +2.

"Amigo o enemigo" es ?til para alguien que quiera hacer un an?lisis del dilema del prisionero aplicado a la vida real. F?jese en que s?lo se puede jugar una vez, as? que todos los conceptos que implican juegos repetidos no se presentan, y no se puede desarrollar la estrategia de la revancha.

En "amigo o enemigo", cada jugador puede hacer un comentario para convencer al otro de su amistad antes de hacer la decisi?n en secreto de cooperar o desertar. Un posible modo de "ganar al sistema" ser?a decir al rival: "Voy a escoger 'enemigo'. Si conf?as en que te d? la mitad de los beneficios despu?s, escoge 'amigo'. De otro modo, nos iremos ambos sin nada." Una versi?n m?s ego?sta de esto ser?a: "Voy a escoger 'enemigo'. Voy a darte X% y me quedar? con (100-X)% del premio total. As? que t?malo o d?jalo, ambos nos llevamos algo o ninguno nos llevamos nada." Ahora el truco se encuentra en minimizar X de modo que el otro concursante siga escogiendo 'amigo'. B?sicamente, debes conocer el umbral en el que los beneficios que obtiene vi?ndote no llevarte nada superan a los que obtiene simplemente llev?ndose el dinero que has ofrecido.

Este acercamiento no ha sido intentado en el juego: es posible que los jueces no lo permitiesen.

?La "tragedia de los comunes"

La llamada "tragedia de los comunes" (de los pastos comunales) es un caso de dilema de prisionero que involucra a muchos agentes y que parece referirse a situaciones reales.

En la formulaci?n que populariz? Garrett Harding, cada vecino de una comunidad campesina prefiere alimentar a su ganado en pastos comunales que en otros propios de peor calidad; si el n?mero de vecinos que satisface esta preferencia supera cierto l?mite, los pastos comunes quedan esquilmados, y es a esto precisamente a lo que conduce la soluci?n del juego. Para que alg?n vecino se beneficie de los pastos, otros deben pagar el coste de renunciar, o cada uno debe renunciar en parte; pero el equilibrio est? en una situaci?n donde cada qui?n utiliza los pastos sin preocuparse de los dem?s.

Trasladando la situaci?n al esquema de Hofstadter, cada vecino tiene aqu? la tentaci?n T de beneficiarse de los pastos sin pagar el coste; la recompensa R por la cooperaci?n mutua consiste en negociar cu?ntos -o en cuanto- han de dejar de beneficiarse de los pastos comunes para conservar los pastos en buenas condiciones; el castigo C para todos porque cada uno ceda a la tentaci?n es la ruina de los pastos; la paga del primo P es la de quien al no aprovecharse de los prados comunes, ha permitido que otros lo hagan. Estas posibilidades se combinan como en el dilema del prisionero bipersonal, haciendo que ante el riesgo de recibir la paga del primo todos cedan a la tentaci?n de no cooperar y provoquen la situaci?n de castigo.

La misma estructura se puede aplicar a cualquier din?mica de agotamiento de recursos por sobreexplotaci?n, y parece estar en el origen de la contaminaci?n ambiental ?donde una atm?sfera no contaminada podr?a desempe?ar el papel de los pastos comunes, y el autom?vil privado el papel del ganado-. Se ha interpretado que evitar soluciones sub?ptimas como ?stas pasa por la privatizaci?n de los bienes de acceso p?blico, limitando en funci?n de la renta el n?mero de personas que pueden caer en la tentaci?n.

Para el fil?sofo ingl?s?Derek Parfit?los juegos que tienen m?s inter?s para estudiar la l?gica del dilema del prisionero son los que dependen de la concurrencia de muchos agentes -como "la tragedia de los comunes"-, y no los juegos bipersonales o los juegos iterados: por un lado, la situaci?n que los provoca no depende de pagos dise?ados externamente -por un experimentador o una instituci?n-, sino de la simple concurrencia de m?ltiples agentes; por otro, mientras m?s sean los participantes, m?s irracional es abandonar unilateralmente la soluci?n sub?ptima que lleva a C ?m?s improbables son los beneficios de no ceder a la tentaci?n T-, y menos peso tienen las soluciones que se postulan en contextos artificiales de iteraci?n. En suma, el gran n?mero de participantes es para Parfit tanto causa como garant?a de que la no cooperaci?n sea una soluci?n estable, y la hace permanente e inevitable (para agentes racionales que busquen satisfacer su propio inter?s).nada mas


Paula Casal afirma que la capacidad secular de las comunidades ind?genas para mantener en buen estado los pastos comunes desmiente la inevitabilidad de C; "la educaci?n, las costumbres, los consejos de ancianos u otras instituciones sociales" de esas comunidades ser?an las barreras que impiden que la tragedia se d? en ellas. Parece entonces que el dilema se supera gracias a la parad?jica receta que admite Parfit: el propio inter?s prescribe que, para llegar a soluciones ?ptimas de Pareto estables, los individuos deben ser educados en teor?as morales contrarias a la satisfacci?n del propio inter?s.

Leer:?Tosca - El dilema del prisionero

?

Facebook:?http://www.facebook.com/Articulosparapensar

ℱℴℓℓℴω ✯?https://twitter.com/articulosp?ensar


Tags: Dilema del prisionero

Publicado por carmenlobo @ 0:02  | Psico - Filo
Comentarios (0)  | Enviar
Comentarios