无记忆玩家潜在博弈中的Logit动态与学习分析
1. 连续对数线性学习的收敛性
在连续行动潜在博弈中,若满足一定条件,连续对数线性学习的马尔可夫链能够追踪特定分布。具体来说,对于连续行动潜在博弈 $\Gamma = (N, {A_i}_i, {U_i}_i, \Phi)$,其中 $A$ 是紧致集,效用函数 $U_i: A \to [-1, 0]$ 在 $A$ 上连续,集合 $A^ = {a^ \in A : a^ = \arg \max_A \Phi(a)}$ 的勒贝格测度为零,且 $\max_A \Phi(a) = 0$。当参数 $\beta(t) = \frac{\ln(t + 1)}{c}$($c$ 如命题所定义)时,由连续对数线性学习(3.26)启动的马尔可夫链 $P_{\beta(t)}$ 弱收敛于概率测度 $\Pi^ $,即当 $t \to \infty$ 时,$\Pi(t) \Rightarrow \Pi^ $,且 $\Pi^ (A^*) = 1$。
根据Portmanteau引理,在对数线性学习下,对于任意 $\epsilon > 0$,有 $\lim_{t \to \infty} \Pr{a(t) \in B_{\epsilon}^{A^ }} = 0$,其中 $B_{\epsilon}^{A^ } = {a \in A : |a - a^ | \leq \epsilon \text{ 对于所有 } a^ \in A^*}$。
2. 连续行动博弈中的独立对数线性学习
对于连续行动博弈,独立对数线性学习的运行方式如下:
超级会员免费看
订阅专栏 解锁全文
31

被折叠的 条评论
为什么被折叠?



