无记忆玩家潜在博弈中的Logit动态收敛分析
1. 非齐次对数线性学习的收敛速率
1.1 收敛速率估计
在非齐次对数线性学习(ILLL)算法中,当参数 $\beta(t) = \frac{\ln(t + 1)}{c}$($c$ 为加扰常数)时,学习过程的马尔可夫链对应一个规则扰动过程,其转移概率由 $t$ 的有理函数表示。
根据相关定理,可得到如下结论:
- 存在极限 $\lim_{t \to \infty} \frac{\alpha(P_{t,c})}{t} \geq \frac{1}{(2AN)^c}$,其中 $\alpha(P_{t,c}) = 1 - \tau(P_{t,c})$,$\tau$ 是 $P_{t,c}$ 的遍历系数。
- 定理 3.5.1 中的常数 $L$ 满足 $L \geq \overline{L} = \frac{1}{c(2AN)^c}$。
- 对于定理 3.5.1 中的常数 $Q_0$,设 $\tilde{\mu}(t) = \tilde{\mu}(\beta(t))$ 是固定 $t$ 时时间齐次马尔可夫链 $P(\beta(t))$ 的平稳分布,有 $\tilde{\mu}(t) = \Theta(\frac{1}{t^{Q_0}})$,其中 $Q_0 = \min_{a \notin A^ } \frac{\gamma^ - \gamma(a)}{c}$,$\gamma^* = \max_{a \in A} \gamma(a)$。
由此可得定理 3.5.2:非齐次对数线性学习在 $\beta(t) = \frac{\ln(t + 1)}{c}$ 时的收敛速率估计为 $|
超级会员免费看
订阅专栏 解锁全文
876

被折叠的 条评论
为什么被折叠?



