16、最佳响应动态:博弈中的收敛机制

最佳响应动态:博弈中的收敛机制

在博弈论中,我们常常关注战略参与者是否能达到均衡状态,以及哪些学习算法能快速收敛到均衡。为了探讨这些问题,我们需要明确动态机制,即描述参与者在非均衡状态下的行为方式。本文将聚焦于“最佳响应动态”及其变体,研究它们在不同类型博弈中的收敛情况。

1. 最佳响应动态基础

最佳响应动态是一种简单直接的程序,参与者通过连续的单方面偏离来寻找博弈的纯纳什均衡(PNE)。具体步骤如下:

最佳响应动态
当当前结果 s 不是 PNE 时:
    选择任意一个参与者 i 和该参与者的任意一个有益偏离 s′i,
    并将结果更新为 (s′i, s−i)

这里,偏离的参与者 i 和有益偏离 s′i 可能有多种选择,我们暂时不做具体规定,后续会根据需要进行细化。初始结果可以是任意的。

最佳响应动态可以形象地看作是在一个图中的游走,图的顶点对应策略组合,出边对应有益偏离。PNE 恰好是图中没有出边的顶点。因此,最佳响应动态只能在 PNE 处停止,在没有 PNE 的博弈中会陷入循环。即使在存在 PNE 的博弈中,它也可能循环(如练习 16.1 所示)。

最佳响应动态非常适合潜在博弈。潜在博弈存在一个实值函数 Φ,对于任何参与者的单方面偏离,潜在函数值的变化等于偏离者成本的变化。路由博弈、选址博弈和网络成本分摊博弈都是潜在博弈的例子。

下面是一个关于最佳响应动态在潜在博弈中收敛性的命题:
命题 16.1(最佳响应动态的收敛性) :在潜在博弈中,从任意初始结果开始,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值