Prisoner’s Dilemma

杨善锦

于 2024-12-11 21:07:17 发布

阅读量915

点赞数 9

分类专栏：博弈论文章标签：博弈论

本文链接：https://blog.youkuaiyun.com/oYangShanJin/article/details/144410289

版权

11 篇文章

订阅专栏

囚徒困境博弈论解析

囚徒困境（Prisoner’s Dilemma）是博弈论中的一个经典模型，用来分析两名玩家在非合作环境下的决策行为。
其核心在于玩家既可以选择合作也可以选择背叛，而最终的结果取决于双方的决策。

假设两名嫌疑人（囚徒 A 和囚徒 B）因涉嫌犯罪被逮捕。警方没有足够证据定罪，于是分别对他们进行审问，并提出如下条件：

每名玩家有两种选择：

以判刑年数的负值作为收益，收益值越大表示越有利：

以下是囚徒困境的收益矩阵，矩阵中的每个格子表示 (囚徒 A 的收益, 囚徒 B 的收益)：

囚徒 A \ 囚徒 B	合作 ©	背叛 (D)
合作 ©	( (-1, -1) )	( (-10, 0) )
背叛 (D)	( (0, -10) )	( (-5, -5) )

双方合作 (C, C)
- ( (-1, -1) )：双方保持沉默，各被判 1 年。
- 这是双方的最优社会选择，但由于互不信任，通常难以达成。
一方合作，另一方背叛 (C, D) 或 (D, C)
- ( (-10, 0) ) 或 ( (0, -10) )：背叛者被释放，而合作者被判 10 年。
- 这是背叛者的最大化收益选择，但对合作者极为不利。
双方背叛 (D, D)
- ( (-5, -5) )：双方互相背叛，各被判 5 年。
- 这是最常见的结果，也是双方的纳什均衡。

在囚徒困境中，双方的策略均衡点为 ( (D, D) )，即双方选择背叛。
这是因为对于任意一方来说，背叛都是一个占优策略：
- 如果对方合作，背叛能获更高收益（从 -1 提升到 0）。
- 如果对方背叛，背叛可以避免更大的损失（从 -10 降低到 -5）。

重复博弈
- 如果囚徒困境被多次重复，玩家之间会倾向于合作以避免长期的背叛惩罚。
- 经典策略：以牙还牙（Tit for Tat），即在下一次博弈中模仿对方的上一次选择。
引入信任机制
- 建立沟通渠道，让双方能够协商并信任对方的选择。
改变收益结构
- 增加合作的奖励或提高背叛的惩罚，使得合作变得更具吸引力。