30、多智能体强化学习任务中可解释策略的探索

多智能体强化学习任务中可解释策略的探索

在多智能体强化学习领域,可解释策略的研究至关重要。本文将详细介绍一种相关的研究方法,包括团队组建、适应度评估、个体编码、操作符等关键环节,还会展示实验设置和结果,并进行深入分析。

1. 团队组建与适应度评估

在进化过程中,每个个体在每个进化周期中仅被评估一次。选择操作符应用时会打乱个体数组,这意味着一个智能体局部种群中的个体通常不会总是与其他智能体局部种群中的相同个体一起评估。进化过程结束后,我们通过组合所有智能体局部种群中的最佳个体来组建最终团队。此外,通过采用一种收养机制,最佳智能体的结构可以在不同的智能体局部种群之间共享。

一旦团队组建完成,将进行Nep个任务模拟回合。在模拟阶段,智能体执行IQL(使用动态ε - 贪心探索方法)来学习将叶子节点映射到动作的函数。使用IQL时,每个智能体无需考虑其他智能体的选择,因为这些被建模为环境的一部分。经过足够多的评估回合,所有智能体的持续学习会导致共同适应。模拟阶段结束后,智能体获得的回报的第七分位数被用作适应度。选择第七分位数的原因是,我们的适应度函数旨在将基因型的质量描述为状态空间分解函数的质量,而这只有在智能体的性能收敛时才能衡量。

以下是不选择均值、中位数和最大值作为适应度聚合函数的原因:
- 均值 :由于智能体最初使用高ε进行探索,初始回报对均值有显著影响,因此不能反映基因型的真实质量。
- 中位数 :一方面,中位数会丢弃智能体之间合作卓有成效从而获得高回报的所有回合;另一方面,由于我们期望回报在模拟阶段结束时增加,使用中位数意味着考虑的是未完全训练的智能体的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值