31、离散与连续策略空间中的复制动态

躺平摸鱼王

于 2025-10-01 11:44:31 发布

阅读量8

点赞数

CC 4.0 BY-SA版权

分类专栏：多智能体仿真：从理论到应用文章标签： Q-学习复制动态连续策略空间

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/k8s6orchestrator/article/details/154550690

多智能体仿真：从理论到应用专栏收录该内容

69 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

离散与连续策略空间中的复制动态

1. 双人博弈中的Q - 学习动态方程

在双人博弈中，对于第一个玩家，其动态方程为：
[
\frac{dx_i}{dt}=x_i\alpha\tau((Ay) i - x\cdot Ay)+x_i\alpha\sum {j}x_j\ln(\frac{x_j}{x_i})
]
对于第二个玩家，类似地有：
[
\frac{dy_i}{dt}=y_i\alpha\tau((Bx) i - y\cdot Bx)+y_i\alpha\sum {j}y_j\ln(\frac{y_j}{y_i})
]
这两个方程用玻尔兹曼概率表达了两个Q - 学习者的动态。每个玩家在其动作集上都有一个概率向量，第一个玩家在动作集 (a_1,\cdots,a_n) 上的概率向量为 (x_1,\cdots,x_n)，第二个玩家在动作集 (b_1,\cdots,b_m) 上的概率向量为 (y_1,\cdots,y_m)。

对比上述方程与复制动态（RD），可以发现方程的第一项正是RD，负责选择机制；而Q - 学习的突变机制则包含在第二项中，可改写为：
[
x_i\alpha\sum_{j}(x_j\ln(x_j)-\ln(x_i))
]
此式中包含两个熵项，一个是关于整个概率分布 (x) 的，另一个是关于策略 (x_i) 的。

已知突变会增加熵，选择机制类似于能量，突变类似于熵，探索可以被视为突变的概念，因为两者都能提供多样性。

1.1 Q - 学习实验

这里仅描述子类2的实验。在

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。