最佳响应动态:博弈中的收敛机制
在博弈论中,我们常常关注战略参与者是否能达到均衡状态,以及哪些学习算法能快速收敛到均衡。为了探讨这些问题,我们需要明确动态机制,即描述参与者在非均衡状态下的行为方式。本文将聚焦于“最佳响应动态”及其变体,研究它们在不同类型博弈中的收敛情况。
1. 最佳响应动态基础
最佳响应动态是一种简单直接的程序,参与者通过连续的单方面偏离来寻找博弈的纯纳什均衡(PNE)。具体步骤如下:
最佳响应动态
当当前结果 s 不是 PNE 时:
选择任意一个参与者 i 和该参与者的任意一个有益偏离 s′i,
并将结果更新为 (s′i, s−i)
这里,偏离的参与者 i 和有益偏离 s′i 可能有多种选择,我们暂时不做具体规定,后续会根据需要进行细化。初始结果可以是任意的。
最佳响应动态可以形象地看作是在一个图中的游走,图的顶点对应策略组合,出边对应有益偏离。PNE 恰好是图中没有出边的顶点。因此,最佳响应动态只能在 PNE 处停止,在没有 PNE 的博弈中会陷入循环。即使在存在 PNE 的博弈中,它也可能循环(如练习 16.1 所示)。
最佳响应动态非常适合潜在博弈。潜在博弈存在一个实值函数 Φ,对于任何参与者的单方面偏离,潜在函数值的变化等于偏离者成本的变化。路由博弈、选址博弈和网络成本分摊博弈都是潜在博弈的例子。
下面是一个关于最佳响应动态在潜在博弈中收敛性的命题:
命题 16.1(最佳响应动态的收敛性) :在潜在博弈中,从任意初始结果开始,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



