17、重复博弈与随机博弈:从有限自动机到图灵机的策略探索

重复博弈与随机博弈:从有限自动机到图灵机的策略探索

1. 重复博弈与民间定理

在博弈论中,重复博弈是一个重要的研究领域。当玩家对对手的最小最大策略做出最佳反应时,他恰好获得自己的最小最大值。定理 6.1.5 是一大类民间定理的一个实例。该定理最初局限于无限重复博弈、平均奖励、纳什均衡和完全信息博弈。然而,实际上存在适用于其他情况的民间定理,比如具有折扣奖励的无限重复博弈(当折扣因子足够大时)、有限重复博弈、子博弈完美均衡(即参与者仅对偏离者进行有限惩罚)以及不完全信息博弈等。这些民间定理的核心观点基本一致:重复博弈均衡中的收益本质上仅受可执行性和可行性的限制。

2. 有限理性:自动机参与的重复博弈

以往我们通常假设玩家能够进行任意深度的推理和相互建模,而不考虑其复杂性,并且常依赖均衡概念来预测或规定行为。但在实际中,即使是相对无争议的两人零和博弈,这种假设也存在问题,例如国际象棋比赛的存在就说明了这一点。接下来我们探讨当参与者并非完全理性的期望效用最大化者,特别是当对他们施加特定计算限制时会发生什么。

以囚徒困境为例,在有限重复的囚徒困境博弈中,理论上每个玩家的占优策略(也是唯一的纳什均衡)是在每次迭代中都选择策略 D。然而在现实中,人们实际玩这个游戏时,尤其是在游戏的早期迭代中,通常会出现大量的合作行为。这一现象与博弈论的理论预测存在明显差异,那么有哪些模型可以解释这一事实呢?

早期文献中提出了基于 ǫ - 均衡的概念。ǫ - 均衡是指在一个策略组合中,没有一个参与者通过改变策略能获得超过 ǫ 的收益,纳什均衡是 ǫ = 0 时的特殊情况。这个均衡概念的动机是,参与者的理性可能是有限的,他们愿意接受略低于最佳反应收益的回报。在有限重复

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值