8、无记忆玩家潜在博弈中的Logit动态与学习分析

QuietPulse

于 2025-09-05 13:59:39 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：无记忆多智能体学习文章标签：潜在博弈对数线性学习马尔可夫链

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c2d3e4f/article/details/151594023

无记忆多智能体学习专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

无记忆玩家潜在博弈中的Logit动态与学习分析

1. 连续对数线性学习的收敛性

在连续行动潜在博弈中，当满足一定条件时，连续对数线性学习的马尔可夫链会有特定的收敛性质。设 $\Gamma = (N, {A_i}_i, {U_i}_i, \Phi)$ 为一个连续行动潜在博弈，其中 $A$ 是紧致的，效用函数 $U_i: A \to [-1, 0]$ 在 $A$ 上连续，集合 $A^ = {a^ \in A: a^* = \arg \max_A \Phi(a)}$ 的勒贝格测度为零，且 $\max_A \Phi(a) = 0$。

若 $\beta(t) = \frac{\ln(t + 1)}{c}$（$c$ 按特定命题定义），则由连续对数线性学习（3.26）启动的马尔可夫链 $P_{\beta(t)}$ 弱收敛于概率测度 $\Pi^ $，即当 $t \to \infty$ 时，$\Pi(t) \Rightarrow \Pi^ $，且 $\Pi^ (A^ ) = 1$。

根据Portmanteau引理，在对数线性学习下，对于任意 $\epsilon > 0$，有 $\lim_{t \to \infty} Pr{a(t) \in B_{\epsilon}^{A^ }} = 0$，其中 $B_{\epsilon}^{A^ } = {a \in A: |a - a^ | \leq \epsilon \text{ 对于所有 } a^ \in A^*}$。

2. 连续行动博弈中的独立对数线性学习

在连续行动博弈中，独立对数线性学习的运行方

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。