多智能体MAPPO代码环境配置以及代码讲解

原创

已于 2022-10-27 16:34:32 修改 · 1.1w 阅读

57 ·

CC 4.0 BY-SA版权

文章标签：

#python #深度学习 #pytorch #人工智能

于 2021-11-23 20:59:25 首次发布

多智能体MAPPO代码环境配置以及代码讲解

MAPPO代码环境配置

MAPPO代码环境配置

MAPPO是2021年一篇将PPO算法扩展至多智能体的论文，其论文链接地址为：https://arxiv.org/abs/2103.01955
对应的官方代码链接为https://github.com/marlbenchmark/on-policy

代码文件夹内容讲解

所有核心代码都位于 onpolicy 文件夹中。 algorithms/子文件夹包含 MAPPO 的特定于算法的代码。

 envs/ 文件夹包含 MPE、SMAC 和 Hanabi 的环境的实现。

 用于执行训练部署和策略更新的代码包含在 runner/ 文件夹中 - 每个环境都有一个runner。

 可以在 scripts/ 文件夹中找到用于使用默认超参数进行训练的可执行脚本。 这些文件按以下方式命名：train_algo_environment.sh。 在每个文件中，映射名称（在 SMAC 和 MPE 的情况下）可以更改。

 可以在 scripts/train/ 文件夹中找到每个环境的 Python 训练脚本。

 config.py 文件包含相关的超参数和环境设置。

配置开始

本配置在Ubuntu 16/18/20，可以在CPU或GPU上跑程序，本文按照GPU版本配置环境

创建虚拟环境： conda create -n MAPPO python==3.6.1
激活环境： conda activate MAPPO
安装GPU版本的pytorch：torch1.5.1+cuda10.1以及torchision0.6.1+cuda10.1
下载MAPPO代码后进入on-poilcy文件夹：cd on-policy
安装本环境：pip install -e
按照requirement.txt文件选择性安装包，其中tensorboard如果用gpu版本的话：安装tensorboard-gpu2.0.0，然后安装tensorboardX:pip install tensorboardX=2.0.0，若用cpu版本的tensorboard可以pip install tensorboard==1.14
最后一步：安装seaborn：pip install seaborn
三步进行运行程序：
cd onpolicy/scripts
chmod +x ./train_mpe.sh
./train_mpe.sh

配置完成后的一些常见问题

1.出现ImportError: cannot import name ‘get_backend’
解决方法：tensorflow版本问题：sudo pip install tensorflow --upgrade，如果还不行查看：

最低0.47元/天解锁文章

8 条评论

ghrsyy 2023.06.30
请问大佬，为什么我的平均episode rewards 一直都是在99-100之间震荡，不收敛呢？求解

末欢 2023.05.24
请问状态和动作接口接了自己的环境，训练几千步，策略网络的输出还是没有规律，可能是什么问题呢？已经修改了隐含层神经元个数为2，智能体只有一个，奖励函数为到目标点的距离，状态空间为智能体坐标，动作空间也只有一维，为智能体的运动方向，运动速度是固定的，环境是2维的环境

qq_46490333 2022.03.22
博主，我想问下这个代码windows系统可以跑吗？怎么下载on-policy模型
- 深度学习强化学习爱好者回复qq_46490333 2022.03.22
  应该是可以的

m0_56619398 2022.03.14
非常感谢博主，想请问一下怎么render，没搞明白[face]emoji:031.png[/face]
- 深度学习强化学习爱好者回复m0_56619398 2022.03.14
  想要render需要改动的挺多，但是你可以借鉴MADDPG中的evaluate的代码，在evaluate代码中可可视化。