多智能体MAPPO代码环境配置以及代码讲解

MAPPO代码环境配置

MAPPO是2021年一篇将PPO算法扩展至多智能体的论文,其论文链接地址为:https://arxiv.org/abs/2103.01955
对应的官方代码链接为https://github.com/marlbenchmark/on-policy

代码文件夹内容讲解

所有核心代码都位于 onpolicy 文件夹中。 algorithms/子文件夹包含 MAPPO 的特定于算法的代码。

 envs/ 文件夹包含 MPE、SMAC 和 Hanabi 的环境的实现。

 用于执行训练部署和策略更新的代码包含在 runner/ 文件夹中 - 每个环境都有一个runner。

 可以在 scripts/ 文件夹中找到用于使用默认超参数进行训练的可执行脚本。 这些文件按以下方式命名:train_algo_environment.sh。 在每个文件中,映射名称(在 SMAC 和 MPE 的情况下)可以更改。

 可以在 scripts/train/ 文件夹中找到每个环境的 Python 训练脚本。

 config.py 文件包含相关的超参数和环境设置。

配置开始

本配置在Ubuntu 16/18/20,可以在CPUGPU上跑程序,本文按照GPU版本配置环境

  1. 创建虚拟环境: conda create -n MAPPO python==3.6.1
  2. 激活环境: conda activate MAPPO
  3. 安装GPU版本的pytorch:torch1.5.1+cuda10.1以及torchision0.6.1+cuda10.1
  4. 下载MAPPO代码后进入on-poilcy文件夹:cd on-policy
  5. 安装本环境:pip install -e
  6. 按照requirement.txt文件选择性安装包,其中tensorboard如果用gpu版本的话:安装tensorboard-gpu2.0.0,然后安装tensorboardX:pip install tensorboardX=2.0.0,若用cpu版本的tensorboard可以pip install tensorboard==1.14
  7. 最后一步:安装seaborn:pip install seaborn
  8. 三步进行运行程序:
  9. cd onpolicy/scripts
  10. chmod +x ./train_mpe.sh
  11. ./train_mpe.sh

配置完成后的一些常见问题

1.出现ImportError: cannot import name ‘get_backend’
解决方法:tensorflow版本问题:sudo pip install tensorflow --upgrade</

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值