28、不确定性下的两阶段在线协作多智能体规划与存在本体修复的 ∃-ASP 方法

不确定性下的两阶段在线协作多智能体规划与存在本体修复的 ∃-ASP 方法

一、两阶段在线协作多智能体规划

在多智能体规划领域,当智能体的动作具有不确定的随机效应时,需要一种有效的规划方法。这里介绍一种两阶段在线协作多智能体规划方法。

1. 团队规划与子目标分配

在团队规划阶段,通过比较不同团队动作的奖励来更新奖励值。例如,在图 6 中,τ3 的奖励比反向传播路径中的团队动作 τ1 更优,因此基于 f(τ3) = [−0.2, 0.5] 更新 N(ϵ0) 中的奖励。经过多次迭代后,返回最佳的下一团队动作 τ = {σi, i ∈ pa(τ)} ,团队规划器将子目标 σi 分配给每个参与的智能体 i,智能体进入个体规划阶段来追求分配的子目标。

2. 个体规划

个体规划采用基于 UCT 的在线方法,每次迭代进行多次奖励滚动。在构建树的过程中,算法在两种类型的节点之间交替:决策节点和机会节点。机会节点代表其父决策节点所描述状态下的可用原始动作,每个机会节点有多个子决策节点,每个子决策节点对应一个可能的动作结果。

当扩展决策节点 N(ϵi) 时,会生成一个代表该状态下可用动作之一的子机会节点,并将新生成机会节点结果的新决策节点添加到树中。UCT 的后续滚动阶段进行了修改,在算法的每次迭代中,对每个非终端结果进行 r 次滚动。每次滚动直到遇到终端状态(子目标达成或失败),然后将获得的奖励反向传播并累积到根节点。

不同类型节点的奖励更新方式如下:
- 机会节点 :与 ak
i 相关的机会节点的奖励 f(ak
i ) ∈ [−1, 1] 计算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值