MARL 学习资源总结

Johnson221B

于 2024-11-21 16:59:07 发布

阅读量945

点赞数 23

分类专栏： MARL 文章标签：学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Johnson221B/article/details/143946095

版权

MARL 专栏收录该内容

1 篇文章

订阅专栏

MARL 学习资源总结

DRL学习类
连续动作空间
离散动作空间
- code：
离散连续都可以
tricks
个人对于学习MADRL的一些思考

2024.11.21 在网上找baseline算法，正好借着这个机会把遇到的一些资源整理下来，方便自己之后查阅。

由于我关注的点主要是动作空间是否连续，所以我就按照动作空间是否连续，对目前主流的算法进行了整理

DRL学习类

深度强化学习中文教程： https://spinningup.readthedocs.io/zh-cn/latest/index.html

连续动作空间

MADDPG算法 2017
ATOC 2018 基于通信

离散动作空间

IDQN: IQL + DQN 2015
VDN 2017
QMIX 2018
QTRAN 2019
QATTEN 2020
QPLEX 2020
WQMIX 2020
LICA 2020 这个有点理想，可以采用 https://kkgithub.com/mzho7212/LICA
VMIX 算法 2020 https://kkgithub.com/hahayonghuming/VDACs
COMA 2018
TARMAC 2018
IC3NET 2019 基于通信
上述值分解算法的比较文章： RETHINKING THE IMPLEMENTATION TRICKS AND
MONOTONICITY CONSTRAINT IN COOPERATIVE
MULTI-AGENT REINFORCEMENT LEARNINGht tps://arxiv.org/pdf/2102.03479

code：

https://kkgithub.com/simsimiSION/pymarl-algorithm-extension-via-starcraft
https://kkgithub.com/oxwhirl/pymarl
https://kkgithub.com/wjh720/QPLEX
https://kkgithub.com/oxwhirl/wqmix

离散连续都可以

CommNet 2016 基于通信的
BiCNet 2017 基于通信
MAPPO 2021 性能非常不错 https://kkgithub.com/openai/baselines

tricks

参数共享 2017 parameter sharing——Cooperative Multi-agent Control Using Deep Reinforcement Learning
经验回放 2017 Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning
MAPPO 实战技巧 https://zhuanlan.zhihu.com/p/386559032

个人对于学习MADRL的一些思考

复现一些经典算法 ppo maddpg qmix dqn等

博客等级

码龄5年

6
原创

58
点赞

38
收藏

27
粉丝

关注

私信

热门文章

分类专栏

MARL 1篇
机器学习作业分享 2篇

展开全部收起

最新评论

【机器学习作业分享2】极大似然估计方法(MLE)
Johnson221B: 请看我的主页，已经上传
【机器学习作业分享2】极大似然估计方法(MLE)
statistican_ABin: 有源数据吗大佬 1297746212@qq.com
函数式爬虫—天气信息爬取
优快云-Ada助手: 恭喜您又写了一篇非常有价值的博客，介绍了函数式爬虫在天气信息爬取方面的应用。这篇文章让读者更深入了解了函数式编程的优点和实际应用。接下来，我想建议您可以继续深入研究函数式编程的应用场景，分享更多实践经验和技巧，让读者更好地掌握函数式编程的技术。期待您更多的精彩作品！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
函数式爬虫—天气信息爬取
Johnson221B: 源代码地址：https://github.com/Johnson221b/spyder
【机器学习作业分享2】极大似然估计方法(MLE)
Johnson221B: 源数据过会儿会上传，请稍安勿躁

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。