多智能体强化学习
文章平均质量分 64
kiding_k
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
简述Fictitious Play原理及实现
例如,对手的策略可能依赖于虚拟玩家的上一次动作。的加权平均值,其中上一轮策略占据的权重逐渐减小,最佳响应动作占据的权重逐渐增加。这种加权平均的方式使得玩家的策略在每一轮中逐渐逼近最佳响应策略,从而达到更优的策略选择。对博弈求均衡是算法博弈论的一个重要内容,这里介绍一个经典的求均衡算法:Fictitious Play(虚拟对弈)。c. 对手也进行相同的步骤,根据玩家的策略估计选择最佳响应策略,并更新对手的策略。a. 玩家观察对手的策略,并根据对手策略的估计选择自己的最佳响应策略。的最佳响应动作的集合。原创 2023-07-14 17:33:26 · 1101 阅读 · 3 评论 -
ICML 2022 不求甚解阅读笔记--强化学习类(1)
对ICML2022论文进行简要解读原创 2022-09-01 14:20:13 · 755 阅读 · 1 评论 -
ICLR 2022 不求甚解阅读笔记--强化学习类(1)
ICLR 2022原创 2022-07-29 09:36:10 · 1045 阅读 · 0 评论 -
Windows下安装星际争霸2的多智能体强化学习平台pymarl
主体框架参考https://blog.youkuaiyun.com/xyp99/article/details/108718906.安装环境windows10, CPU only安装步骤1. StarCraft Ⅱ安装,约30G。建议一路默认安装,否则之后需要改变python库文件代码。2. 创建conda环境conda create -n pymarl python=3.7 -y conda activate pymarl 注意事项:如果执行conda create -n pym...原创 2020-12-10 14:42:02 · 4169 阅读 · 7 评论
分享