无记忆玩家潜在博弈中的Logit动态与学习分析
1. 连续对数线性学习的收敛性
在连续行动潜在博弈中,当满足一定条件时,连续对数线性学习的马尔可夫链会有特定的收敛性质。设 $\Gamma = (N, {A_i}_i, {U_i}_i, \Phi)$ 为一个连续行动潜在博弈,其中 $A$ 是紧致的,效用函数 $U_i: A \to [-1, 0]$ 在 $A$ 上连续,集合 $A^ = {a^ \in A: a^* = \arg \max_A \Phi(a)}$ 的勒贝格测度为零,且 $\max_A \Phi(a) = 0$。
若 $\beta(t) = \frac{\ln(t + 1)}{c}$($c$ 按特定命题定义),则由连续对数线性学习(3.26)启动的马尔可夫链 $P_{\beta(t)}$ 弱收敛于概率测度 $\Pi^ $,即当 $t \to \infty$ 时,$\Pi(t) \Rightarrow \Pi^ $,且 $\Pi^ (A^ ) = 1$。
根据Portmanteau引理,在对数线性学习下,对于任意 $\epsilon > 0$,有 $\lim_{t \to \infty} Pr{a(t) \in B_{\epsilon}^{A^ }} = 0$,其中 $B_{\epsilon}^{A^ } = {a \in A: |a - a^ | \leq \epsilon \text{ 对于所有 } a^ \in A^*}$。
2. 连续行动博弈中的独立对数线性学习
在连续行动博弈中,独立对数线性学习的运行方
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



