目录
相关资料
- 论文链接:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
- 代码地址:
算法地址https://github.com/openai/maddpg
环境地址https://github.com/openai/multiagent-particle-envs - OpenAI官博:Learning to Cooperate,Compete, and Communicate
- 代码讲解:暂无
1.研究动机是什么
本文主要是将单智体算法应用于多智体环境,由于多智能体的环境状态由多个agent的行为共同决定,本身具有不稳定性(non-stationarity),Q-learning算法很难训练,policy gradient算法的方差会随着智能体数目的增加变得更大。
2.主要解决了什么问题
作者提出了一种actor-critic方法的变体MADDPG,对每个agent的强化学习都考虑其他agent的动作策略,进行中心化训练和非中心化执行,取得了显著效果。