MARL 学习资源总结

2024.11.21 在网上找baseline算法,正好借着这个机会把遇到的一些资源整理下来,方便自己之后查阅。

由于我关注的点主要是动作空间是否连续,所以我就按照动作空间是否连续,对目前主流的算法进行了整理

DRL学习类

  • 深度强化学习中文教程: https://spinningup.readthedocs.io/zh-cn/latest/index.html

连续动作空间

  • MADDPG算法 2017
  • ATOC 2018 基于通信

离散动作空间

  • IDQN: IQL + DQN 2015
  • VDN 2017
  • QMIX 2018
  • QTRAN 2019
  • QATTEN 2020
  • QPLEX 2020
  • WQMIX 2020
  • LICA 2020 这个有点理想,可以采用 https://kkgithub.com/mzho7212/LICA
  • VMIX 算法 2020 https://kkgithub.com/hahayonghuming/VDACs
  • COMA 2018
  • TARMAC 2018
  • IC3NET 2019 基于通信
  • 上述值分解算法的比较文章: RETHINKING THE IMPLEMENTATION TRICKS AND
    MONOTONICITY CONSTRAINT IN COOPERATIVE
    MULTI-AGENT REINFORCEMENT LEARNINGht tps://arxiv.org/pdf/2102.03479

code:

  • https://kkgithub.com/simsimiSION/pymarl-algorithm-extension-via-starcraft
  • https://kkgithub.com/oxwhirl/pymarl
  • https://kkgithub.com/wjh720/QPLEX
  • https://kkgithub.com/oxwhirl/wqmix

离散连续都可以

  • CommNet 2016 基于通信的
  • BiCNet 2017 基于通信
  • MAPPO 2021 性能非常不错 https://kkgithub.com/openai/baselines

tricks

  • 参数共享 2017 parameter sharing——Cooperative Multi-agent Control Using Deep Reinforcement Learning
  • 经验回放 2017 Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning
  • MAPPO 实战技巧 https://zhuanlan.zhihu.com/p/386559032

个人对于学习MADRL的一些思考

  • 复现一些经典算法 ppo maddpg qmix dqn等
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值