无记忆玩家潜在博弈中的Logit动态学习算法分析
1. 非齐次对数线性学习的收敛速率
1.1 收敛速率估计
在非齐次对数线性学习(ILLL)算法中,当参数 $\beta(t) = \frac{\ln(t + 1)}{c}$($c$ 为加扰常数)时,学习过程的马尔可夫链对应一个正则扰动过程。通过定理 3.5.1 来估计其收敛速率。
- 首先,根据相关公式可得 $\lim_{t \to \infty} \frac{\alpha(P_{t,c})}{t} \geq \frac{1}{(2AN)^c}$,其中 $\alpha(P_{t,c}) = 1 - \tau(P_{t,c})$,$\tau$ 是 $P_{t,c}$ 的遍历系数。由此可知,定理 3.5.1 中的常数 $L$ 满足 $L \geq \overline{L} = \frac{1}{c(2AN)^c}$。
- 接着,设 $\pi(t) = \pi(\beta(t))$ 是固定 $t$ 时时间齐次马尔可夫链 $P(\beta(t))$ 的平稳分布。可得 $\pi^ (t) = 1 - \sum_{a \in A^ } \pi_a(t) = \frac{\sum_{a \notin A^ } (t + 1)^{\frac{\gamma(a)}{c}}}{\sum_{a \in A^ } (t + 1)^{\frac{\gamma(a)}{c}}} = \Theta(\frac{1}{t^{Q_0}})$,其中 $Q_0 = \min_{a \notin A^ } \frac{\gamma^ - \gamma(a)}{c}$,$\gamma^ = \
超级会员免费看
订阅专栏 解锁全文
598

被折叠的 条评论
为什么被折叠?



