29、强化学习：多智能体与可解释性探索-优快云博客

本文链接：https://blog.youkuaiyun.com/ansible6ops/article/details/151169622

强化学习：多智能体与可解释性探索

1. 多智能体强化学习

1.1 训练代码与数据处理

在多智能体强化学习中，当经验回放缓冲区 replay1 和 replay2 中的数据量都超过批量大小 batch_size 时，就会开始训练过程。以下是相关代码：

if len(replay1) > batch_size and len(replay2) > batch_size:   
    loss1 = train(batch_size,replay1,params[0],layers=layers,J=N1)
    loss2 = train(batch_size,replay2,params[1],layers=layers,J=N1)
    losses1.append(loss1)
    losses2.append(loss2)

在这段代码的最后部分，我们将所有数据收集到一个元组中，并将其添加到经验回放缓冲区以进行训练。不过，多智能体系统存在一个复杂性，即随着时间推移，智能体数量会因死亡而减少。因此，我们需要对数组进行一些清理工作，以确保数据始终与正确的智能体匹配。

1.2 训练效果与展示

如果仅运行少量训练周期，由于网格设置得非常小，且每队只有 16 个智能体，智能体将开始在战斗中展现出一定的技能。你可以通过以下链接查看录制的游戏视频：