2024.11.21 在网上找baseline算法,正好借着这个机会把遇到的一些资源整理下来,方便自己之后查阅。
由于我关注的点主要是动作空间是否连续,所以我就按照动作空间是否连续,对目前主流的算法进行了整理
DRL学习类
- 深度强化学习中文教程: https://spinningup.readthedocs.io/zh-cn/latest/index.html
连续动作空间
- MADDPG算法 2017
- ATOC 2018 基于通信
离散动作空间
- IDQN: IQL + DQN 2015
- VDN 2017
- QMIX 2018
- QTRAN 2019
- QATTEN 2020
- QPLEX 2020
- WQMIX 2020
- LICA 2020 这个有点理想,可以采用 https://kkgithub.com/mzho7212/LICA
- VMIX 算法 2020 https://kkgithub.com/hahayonghuming/VDACs
- COMA 2018
- TARMAC 2018
- IC3NET 2019 基于通信
- 上述值分解算法的比较文章: RETHINKING THE IMPLEMENTATION TRICKS AND
MONOTONICITY CONSTRAINT IN COOPERATIVE
MULTI-AGENT REINFORCEMENT LEARNINGht tps://arxiv.org/pdf/2102.03479
code:
- https://kkgithub.com/simsimiSION/pymarl-algorithm-extension-via-starcraft
- https://kkgithub.com/oxwhirl/pymarl
- https://kkgithub.com/wjh720/QPLEX
- https://kkgithub.com/oxwhirl/wqmix
离散连续都可以
- CommNet 2016 基于通信的
- BiCNet 2017 基于通信
- MAPPO 2021 性能非常不错 https://kkgithub.com/openai/baselines
tricks
- 参数共享 2017 parameter sharing——Cooperative Multi-agent Control Using Deep Reinforcement Learning
- 经验回放 2017 Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning
- MAPPO 实战技巧 https://zhuanlan.zhihu.com/p/386559032
个人对于学习MADRL的一些思考
- 复现一些经典算法 ppo maddpg qmix dqn等