30、多智能体强化学习任务中可解释策略的探索

open4

于 2025-07-21 10:12:46 发布

阅读量4

点赞数

CC 4.0 BY-SA版权

分类专栏：仿生优化方法及其应用：BIOMA 2022会议精华文章标签：多智能体强化学习可解释策略协同进化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/open4/article/details/149508518

仿生优化方法及其应用：BIOMA 2022会议精华专栏收录该内容

30 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

多智能体强化学习任务中可解释策略的探索

在多智能体强化学习领域，可解释策略的研究至关重要。本文将详细介绍一种相关的研究方法，包括团队组建、适应度评估、个体编码、操作符等关键环节，还会展示实验设置和结果，并进行深入分析。

1. 团队组建与适应度评估

在进化过程中，每个个体在每个进化周期中仅被评估一次。选择操作符应用时会打乱个体数组，这意味着一个智能体局部种群中的个体通常不会总是与其他智能体局部种群中的相同个体一起评估。进化过程结束后，我们通过组合所有智能体局部种群中的最佳个体来组建最终团队。此外，通过采用一种收养机制，最佳智能体的结构可以在不同的智能体局部种群之间共享。

一旦团队组建完成，将进行Nep个任务模拟回合。在模拟阶段，智能体执行IQL（使用动态ε - 贪心探索方法）来学习将叶子节点映射到动作的函数。使用IQL时，每个智能体无需考虑其他智能体的选择，因为这些被建模为环境的一部分。经过足够多的评估回合，所有智能体的持续学习会导致共同适应。模拟阶段结束后，智能体获得的回报的第七分位数被用作适应度。选择第七分位数的原因是，我们的适应度函数旨在将基因型的质量描述为状态空间分解函数的质量，而这只有在智能体的性能收敛时才能衡量。

以下是不选择均值、中位数和最大值作为适应度聚合函数的原因：
- 均值：由于智能体最初使用高ε进行探索，初始回报对均值有显著影响，因此不能反映基因型的真实质量。
- 中位数 ：一方面，中位数会丢弃智能体之间合作卓有成效从而获得高回报的所有回合；另一方面，由于我们期望回报在模拟阶段结束时增加，使用中位数意味着考虑的是未完全训练的智能体的性能。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。