连续动作博弈中的学习研究
1. 引言
在连续动作潜在博弈中,玩家遵循连续对数线性学习规则,我们将深入研究相关马尔可夫链的收敛特性,以及该学习规则下博弈的行为表现。主要探讨固定参数 $\beta$ 和时间依赖参数 $\beta(t)$ 两种情况下的收敛情况。
2. 固定参数 $\beta$:潜在函数最大化者的随机稳定性
- 转移核密度 :当参数 $\beta$ 与时间无关时,转移核 $P_{\beta}$ 具有密度 $p_{\beta}(a, x)$,其表达式为:
[
p_{\beta}(a, x) =
\begin{cases}
\frac{1}{N} \frac{\exp{\beta U_i(x_i, a_{-i})}}{\int_{A_i} \exp{\beta U_i(y_i, a_{-i})} dy_i} & \text{如果 } d(a, x) = 1 \text{ 且 } a_i \neq x_i \
0 & \text{否则}
\end{cases}
]
其中,$d(a, x)$ 是向量 $a$ 和 $x$ 之间的汉明距离。此时,马尔可夫链是齐次的。 - 平稳分布 :具有密度
[
\pi_{\beta}(x) = \frac{\exp{\beta \Phi(x)}}{\int_{A} \exp{\beta \Phi(y)} dy}
]
的概率分布 $\Pi_{\beta}$ 对应于马尔可夫链 $P_{\beta}$ 的平稳测
超级会员免费看
订阅专栏 解锁全文
823

被折叠的 条评论
为什么被折叠?



