MADDPG论文、项目学习记录

本文深入探讨MADDPG算法在多智能体环境中的应用,解析算法原理、训练技巧及常见问题解决策略,如agent跑飞问题。通过实例演示,分享如何设置边界避免agent偏离,调整神经网络单元数、replay_buffer大小及增加action噪声等优化方法。

 

论文地址:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
项目地址:OPENAI-MADDPG    文文大神的项目地址

学习链接:OpenAI-MADDPG 工程简单解析及个人想法    论文解读1  论文翻译

2020.3.15更新

总是有人问关于agent跑飞的问题,我采用的方法是设置边界,超出边界就reset。怎么知道边界和agent的位置?仔细看env的reset和step函数,看怎么初始化agent位置、返回的什么state。参考2020.2.24更新 的MADDPG的总结第五条

超出边界的代码:

 over=False
 for i in range(1000000):

        if over:
            o_n = env.reset()
        if i % 500 == 0:
            o_n = env.reset()
########其他#####
        o_n_next, r_n, d_n, i_n = env.step(a)
        over=False
        for agent_index in range(3):#共三个agent
            agent_state[agent_index]=[o_n_next[agent_index][2],o_n_next[agent_index][3]]
            if min(agent_state[agent_index])<-1 or max(agent_state[agent_index])>1:
                over=True####超出边界,下一次reset

2020.2.24更新

又跑了几遍文文的项目(之前为了训练快一点把迭代次数和replay_buffer都缩小了10倍,共迭代100000次),跑到几万次还reward总是0,agengt总是跑飞了。所以请教了师兄们,终于看到了还不错的结果。实验是论文中的第二种环境simple_tag,做了部分修改后跑到100000次左右就差不多三个红球会围堵一个绿球了,绿球是随机走的。

评论 64
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值