强化学习:多智能体与可解释性探索
1. 多智能体强化学习
1.1 训练代码与数据处理
在多智能体强化学习中,当经验回放缓冲区 replay1 和 replay2 中的数据量都超过批量大小 batch_size 时,就会开始训练过程。以下是相关代码:
if len(replay1) > batch_size and len(replay2) > batch_size:
loss1 = train(batch_size,replay1,params[0],layers=layers,J=N1)
loss2 = train(batch_size,replay2,params[1],layers=layers,J=N1)
losses1.append(loss1)
losses2.append(loss2)
在这段代码的最后部分,我们将所有数据收集到一个元组中,并将其添加到经验回放缓冲区以进行训练。不过,多智能体系统存在一个复杂性,即随着时间推移,智能体数量会因死亡而减少。因此,我们需要对数组进行一些清理工作,以确保数据始终与正确的智能体匹配。
1.2 训练效果与展示
如果仅运行少量训练周期,由于网格设置得非常小,且每队只有 16 个智能体,智能体将开始在战斗中展现出一定的技能。你可以通过以下链接查看录制的游戏视频:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



