29、强化学习:多智能体与可解释性探索

强化学习:多智能体与可解释性探索

1. 多智能体强化学习

1.1 训练代码与数据处理

在多智能体强化学习中,当经验回放缓冲区 replay1 replay2 中的数据量都超过批量大小 batch_size 时,就会开始训练过程。以下是相关代码:

if len(replay1) > batch_size and len(replay2) > batch_size:   
    loss1 = train(batch_size,replay1,params[0],layers=layers,J=N1)
    loss2 = train(batch_size,replay2,params[1],layers=layers,J=N1)
    losses1.append(loss1)
    losses2.append(loss2)

在这段代码的最后部分,我们将所有数据收集到一个元组中,并将其添加到经验回放缓冲区以进行训练。不过,多智能体系统存在一个复杂性,即随着时间推移,智能体数量会因死亡而减少。因此,我们需要对数组进行一些清理工作,以确保数据始终与正确的智能体匹配。

1.2 训练效果与展示

如果仅运行少量训练周期,由于网格设置得非常小,且每队只有 16 个智能体,智能体将开始在战斗中展现出一定的技能。你可以通过以下链接查看录制的游戏视频:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值