7、连续行动博弈中的学习:对数线性学习的收敛性分析

连续行动博弈中的学习:对数线性学习的收敛性分析

1. 引言

在连续行动潜在博弈中,玩家遵循连续对数线性学习规则,我们将研究相关马尔可夫链的收敛特性,以了解玩家行为和算法的收敛情况。

2. 恒定参数 ˇ 下的潜在函数最大化者的随机稳定性

2.1 马尔可夫链的转移核密度

当参数 ˇ 与时间无关时,马尔可夫链的转移核 (P_ˇ) 具有密度 (p_ˇ(a; x)):
[
p_ˇ(a; x) =
\begin{cases}
\frac{1}{N} \frac{\exp{ˇU_i(x_i,a_{-i})}}{\int_{A_i} \exp{ˇU_i(y_i,a_{-i})}dy_i} & \text{if } d(a; x) = 1 \text{ and } a_i \neq x_i\
0 & \text{otherwise}
\end{cases}
]
其中 (d(a; x)) 是向量 (a) 和 (x) 之间的汉明距离。此时马尔可夫链是齐次的。

2.2 平稳分布

概率分布 (… ˇ) 具有密度:
[
…_ˇ(x) = \frac{\exp{ˇ\Phi(x)}}{\int
{A} \exp{ˇ\Phi(y)}dy}
]
它对应于马尔可夫链 (P_ˇ) 的平稳测度。因为满足详细平衡方程 (…_ˇ(a)p_ˇ(a; x) = …_ˇ(x)p_ˇ(x; a)),所以 (…_ˇ) 是平稳的。

2.3 极限分布

当 ˇ 趋于无穷大

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值