6、无记忆玩家潜在博弈中的Logit动态学习算法分析

最新推荐文章于 2025-09-05 13:59:39 发布

Wind6

最新推荐文章于 2025-09-05 13:59:39 发布

阅读量28

点赞数

CC 4.0 BY-SA版权

分类专栏：无记忆多智能体系统的博弈论学习与分布式优化文章标签：对数线性学习非齐次马尔可夫链收敛速率

本文链接：https://blog.youkuaiyun.com/wind6/article/details/150053049

无记忆多智能体系统的博弈论学习与分布式优化专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

无记忆玩家潜在博弈中的Logit动态学习算法分析

1. 非齐次对数线性学习的收敛速率

1.1 收敛速率估计

在非齐次对数线性学习（ILLL）算法中，当参数 $\beta(t) = \frac{\ln(t + 1)}{c}$（$c$ 为加扰常数）时，学习过程的马尔可夫链对应一个正则扰动过程。通过定理 3.5.1 来估计其收敛速率。
- 首先，根据相关公式可得 $\lim_{t \to \infty} \frac{\alpha(P_{t,c})}{t} \geq \frac{1}{(2AN)^c}$，其中 $\alpha(P_{t,c}) = 1 - \tau(P_{t,c})$，$\tau$ 是 $P_{t,c}$ 的遍历系数。由此可知，定理 3.5.1 中的常数 $L$ 满足 $L \geq \overline{L} = \frac{1}{c(2AN)^c}$。
- 接着，设 $\pi(t) = \pi(\beta(t))$ 是固定 $t$ 时时间齐次马尔可夫链 $P(\beta(t))$ 的平稳分布。可得 $\pi^ (t) = 1 - \sum_{a \in A^ } \pi_a(t) = \frac{\sum_{a \notin A^ } (t + 1)^{\frac{\gamma(a)}{c}}}{\sum_{a \in A^ } (t + 1)^{\frac{\gamma(a)}{c}}} = \Theta(\frac{1}{t^{Q_0}})$，其中 $Q_0 = \min_{a \notin A^ } \frac{\gamma^ - \gamma(a)}{c}$，$\gamma^ = \