重复博弈与随机博弈:从有限自动机到图灵机的策略探索
1. 重复博弈与民间定理
在博弈论中,重复博弈是一个重要的研究领域。当玩家对对手的最小最大策略做出最佳反应时,他恰好获得自己的最小最大值。定理 6.1.5 是一大类民间定理的一个实例。该定理最初局限于无限重复博弈、平均奖励、纳什均衡和完全信息博弈。然而,实际上存在适用于其他情况的民间定理,比如具有折扣奖励的无限重复博弈(当折扣因子足够大时)、有限重复博弈、子博弈完美均衡(即参与者仅对偏离者进行有限惩罚)以及不完全信息博弈等。这些民间定理的核心观点基本一致:重复博弈均衡中的收益本质上仅受可执行性和可行性的限制。
2. 有限理性:自动机参与的重复博弈
以往我们通常假设玩家能够进行任意深度的推理和相互建模,而不考虑其复杂性,并且常依赖均衡概念来预测或规定行为。但在实际中,即使是相对无争议的两人零和博弈,这种假设也存在问题,例如国际象棋比赛的存在就说明了这一点。接下来我们探讨当参与者并非完全理性的期望效用最大化者,特别是当对他们施加特定计算限制时会发生什么。
以囚徒困境为例,在有限重复的囚徒困境博弈中,理论上每个玩家的占优策略(也是唯一的纳什均衡)是在每次迭代中都选择策略 D。然而在现实中,人们实际玩这个游戏时,尤其是在游戏的早期迭代中,通常会出现大量的合作行为。这一现象与博弈论的理论预测存在明显差异,那么有哪些模型可以解释这一事实呢?
早期文献中提出了基于 ǫ - 均衡的概念。ǫ - 均衡是指在一个策略组合中,没有一个参与者通过改变策略能获得超过 ǫ 的收益,纳什均衡是 ǫ = 0 时的特殊情况。这个均衡概念的动机是,参与者的理性可能是有限的,他们愿意接受略低于最佳反应收益的回报。在有限重复
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



