连续行动博弈中的学习:对数线性学习的收敛性分析
1. 引言
在连续行动潜在博弈中,玩家遵循连续对数线性学习规则,我们将研究相关马尔可夫链的收敛特性,以了解玩家行为和算法的收敛情况。
2. 恒定参数 ˇ 下的潜在函数最大化者的随机稳定性
2.1 马尔可夫链的转移核密度
当参数 ˇ 与时间无关时,马尔可夫链的转移核 (P_ˇ) 具有密度 (p_ˇ(a; x)):
[
p_ˇ(a; x) =
\begin{cases}
\frac{1}{N} \frac{\exp{ˇU_i(x_i,a_{-i})}}{\int_{A_i} \exp{ˇU_i(y_i,a_{-i})}dy_i} & \text{if } d(a; x) = 1 \text{ and } a_i \neq x_i\
0 & \text{otherwise}
\end{cases}
]
其中 (d(a; x)) 是向量 (a) 和 (x) 之间的汉明距离。此时马尔可夫链是齐次的。
2.2 平稳分布
概率分布 (… ˇ) 具有密度:
[
…_ˇ(x) = \frac{\exp{ˇ\Phi(x)}}{\int {A} \exp{ˇ\Phi(y)}dy}
]
它对应于马尔可夫链 (P_ˇ) 的平稳测度。因为满足详细平衡方程 (…_ˇ(a)p_ˇ(a; x) = …_ˇ(x)p_ˇ(x; a)),所以 (…_ˇ) 是平稳的。
2.3 极限分布
当 ˇ 趋于无穷大
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



