不确定性下的两阶段在线协作多智能体规划与存在本体修复的 ∃-ASP 方法
一、两阶段在线协作多智能体规划
在多智能体规划领域,当智能体的动作具有不确定的随机效应时,需要一种有效的规划方法。这里介绍一种两阶段在线协作多智能体规划方法。
1. 团队规划与子目标分配
在团队规划阶段,通过比较不同团队动作的奖励来更新奖励值。例如,在图 6 中,τ3 的奖励比反向传播路径中的团队动作 τ1 更优,因此基于 f(τ3) = [−0.2, 0.5] 更新 N(ϵ0) 中的奖励。经过多次迭代后,返回最佳的下一团队动作 τ = {σi, i ∈ pa(τ)} ,团队规划器将子目标 σi 分配给每个参与的智能体 i,智能体进入个体规划阶段来追求分配的子目标。
2. 个体规划
个体规划采用基于 UCT 的在线方法,每次迭代进行多次奖励滚动。在构建树的过程中,算法在两种类型的节点之间交替:决策节点和机会节点。机会节点代表其父决策节点所描述状态下的可用原始动作,每个机会节点有多个子决策节点,每个子决策节点对应一个可能的动作结果。
当扩展决策节点 N(ϵi) 时,会生成一个代表该状态下可用动作之一的子机会节点,并将新生成机会节点结果的新决策节点添加到树中。UCT 的后续滚动阶段进行了修改,在算法的每次迭代中,对每个非终端结果进行 r 次滚动。每次滚动直到遇到终端状态(子目标达成或失败),然后将获得的奖励反向传播并累积到根节点。
不同类型节点的奖励更新方式如下:
- 机会节点 :与 ak
i 相关的机会节点的奖励 f(ak
i ) ∈ [−1, 1] 计算
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



