5、无记忆玩家潜在博弈中的Logit动态分析

最新推荐文章于 2025-09-05 13:59:39 发布

QuietPulse

最新推荐文章于 2025-09-05 13:59:39 发布

阅读量28

点赞数

CC 4.0 BY-SA版权

分类专栏：无记忆多智能体学习文章标签：潜在博弈无记忆玩家对数线性学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c2d3e4f/article/details/151594005

无记忆多智能体学习专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

无记忆玩家潜在博弈中的Logit动态分析

在多智能体系统的博弈研究中，如何让玩家通过学习达到最优纳什均衡是一个重要的问题。本文将探讨无记忆玩家在潜在博弈中的学习算法，特别是对数线性学习和独立对数线性学习，并分析它们的同步性、收敛性以及收敛速率。

1. 对数线性学习中的信息需求

在对数线性学习算法中，每个玩家会观察当前时间 $t$，并使用关于其效用函数对其他玩家当前联合行动的所有响应信息，这种信息被称为基于神谕的信息。玩家在决策时不需要游戏历史，因此该学习过程可应用于无记忆的多智能体系统。

对数线性学习中玩家 $i$ 在时间步 $t$ 的行动转移对所需信息的依赖可表示为：
[p_{a_i}(t) = f_i({a_i, U_i(a_i, a_{-i}(t))} {a_i\in A_i})]
其中，函数 $f_i$ 定义为：
[f_i({a_i, U_i(a_i, a {-i}(t))} {a_i\in A_i}) = \frac{\exp{\beta U_i(a_i, a {-i}(t))}}{\sum_{\hat{a} i\in A_i} \exp{\beta U_i(\hat{a}_i, a {-i}(t))}}]

该学习算法在适当设置时间相关参数的情况下，能在总变差意义下收敛到潜在函数最大化者的分布。但该算法每次只能允许一个玩家更新其行动，需要一个中央控制器来保证这一要求的实现。

2. 无记忆学习中的同步问题

2.1 仅基于神谕信息的局限性

考虑一个 $2\times2$ 的对称协调博弈，如下表

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。