多智能体觅食任务中的探索策略研究
1. 引言
多智能体系统在现实世界中有诸多应用,如危险废物清理、城市搜索救援、监控系统和行星探索等。在觅食任务模型中,使用Webots平台创建了一个2000mm×2000mm的环境,其中有5个Khepera II模型的智能体和10个圆盘。智能体在环境中漫游,搜索并将圆盘带回起始位置。采用Q学习这种强化学习方法来处理该觅食任务,通过收集圆盘的数量、环境中的碰撞次数和收集圆盘的总时间来评估不同策略的性能。
2. 相关探索策略
2.1 随机搜索
随机搜索是一种原始的探索方法,在强化学习的当前发展阶段并不广泛使用,但可作为其他探索策略的基准参考。采用该策略的智能体在选择动作时,不受环境奖励的影响,随机选择动作,在环境中无明确目标地探索。
2.2 贪心策略
贪心策略是与标准Q学习相关的常用探索策略。智能体根据可用动作中Q(s, a)值最高的来选择动作,其选择的动作可能依赖于已采取的动作,但不考虑未来动作。公式如下:
[a = \text{argmax}_a Q(s,a)]
2.3 ϵ - 贪心策略
这是最流行的探索策略之一。以概率ϵ进行一定程度的探索,其中ϵ是一个小的正值(0 < ϵ < 1)。高ϵ值会使智能体更频繁地探索,防止其只专注于最优动作,同时能让智能体快速响应环境变化;低ϵ值则促使智能体更多地利用最优动作。对于本研究案例,在测试的ϵ值集合{0.1, 0.2, 0.3, 0.4, 0.5}中,ϵ = 0.2略微提高了求解质量。公式如下:
[a =
\begin{cases}
\tex
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



