多智能体强化学习入门

自己在程序里弄了两个DDPG相互博弈,发现怎么都不收敛,说明还是得入门MARL
链接: github仓库,列举了好多MARL的算法,代码还没有试过,因为没有MADDPG

MADDPG

链接: maddpg算法详解网站
MADDPG最主要的特点就是:多个智能体,actor只知道自己的信息,而critic知道的是全局信息,相当于训练的时候我们给智能体的是全局的信息,运行的时候是给局部信息。
QMIX的特点是有一个新的信度分配,所以我觉得自己的问题还不需要QMIX(没有合作的agents),所以目前学习的是MADDPG
如果评论区有老爷指明一下多个独立个体博弈的MARL就更好了

使用代码踩过的坑:

  1. openai/maddpg:tensorflow1写的,希望能更新一下
  2. xuehy/pytorch-maddpg:代码里的环境,安装不来
  3. shariqiqbal2810/maddpg-pytorch:baselines始终装不上,WARNING: No metadata found in d:\anaconda3\envs\bl3\lib\site-packages\mujoco_py-2.1.2.14-py3.10.egg
  4. starry-sky6688/MADDPG:终于可以用了,需要自己安装好openai/multiagent-particle-envs,然后注意gym的版本需要降低,pip install gym==0.10.5,不然会报错from gym.spaces import prng报错 找不到prng

链接: multiagent-particle-envs环境说明

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值