无记忆玩家潜在博弈中的Logit动态分析
在多智能体系统的博弈研究中,如何让玩家通过学习达到最优纳什均衡是一个重要的问题。本文将探讨无记忆玩家在潜在博弈中的学习算法,特别是对数线性学习和独立对数线性学习,并分析它们的同步性、收敛性以及收敛速率。
1. 对数线性学习中的信息需求
在对数线性学习算法中,每个玩家会观察当前时间 $t$,并使用关于其效用函数对其他玩家当前联合行动的所有响应信息,这种信息被称为基于神谕的信息。玩家在决策时不需要游戏历史,因此该学习过程可应用于无记忆的多智能体系统。
对数线性学习中玩家 $i$ 在时间步 $t$ 的行动转移对所需信息的依赖可表示为:
[p_{a_i}(t) = f_i({a_i, U_i(a_i, a_{-i}(t))} {a_i\in A_i})]
其中,函数 $f_i$ 定义为:
[f_i({a_i, U_i(a_i, a {-i}(t))} {a_i\in A_i}) = \frac{\exp{\beta U_i(a_i, a {-i}(t))}}{\sum_{\hat{a} i\in A_i} \exp{\beta U_i(\hat{a}_i, a {-i}(t))}}]
该学习算法在适当设置时间相关参数的情况下,能在总变差意义下收敛到潜在函数最大化者的分布。但该算法每次只能允许一个玩家更新其行动,需要一个中央控制器来保证这一要求的实现。
2. 无记忆学习中的同步问题
2.1 仅基于神谕信息的局限性
考虑一个 $2\times2$ 的对称协调博弈,如下表
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



