28、不确定性下的两阶段在线协作多智能体规划与存在本体修复的 ∃-ASP 方法

q9w8e7r6t5

于 2025-10-09 11:57:14 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：不确定性管理的前沿探索文章标签：多智能体规划在线协作不确定性

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/q9w8e7r6t5/article/details/153806533

不确定性管理的前沿探索专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

不确定性下的两阶段在线协作多智能体规划与存在本体修复的 ∃-ASP 方法

一、两阶段在线协作多智能体规划

在多智能体规划领域，当智能体的动作具有不确定的随机效应时，需要一种有效的规划方法。这里介绍一种两阶段在线协作多智能体规划方法。

1. 团队规划与子目标分配

在团队规划阶段，通过比较不同团队动作的奖励来更新奖励值。例如，在图 6 中，τ3 的奖励比反向传播路径中的团队动作 τ1 更优，因此基于 f(τ3) = [−0.2, 0.5] 更新 N(ϵ0) 中的奖励。经过多次迭代后，返回最佳的下一团队动作 τ = {σi, i ∈ pa(τ)} ，团队规划器将子目标 σi 分配给每个参与的智能体 i，智能体进入个体规划阶段来追求分配的子目标。

2. 个体规划

个体规划采用基于 UCT 的在线方法，每次迭代进行多次奖励滚动。在构建树的过程中，算法在两种类型的节点之间交替：决策节点和机会节点。机会节点代表其父决策节点所描述状态下的可用原始动作，每个机会节点有多个子决策节点，每个子决策节点对应一个可能的动作结果。

当扩展决策节点 N(ϵi) 时，会生成一个代表该状态下可用动作之一的子机会节点，并将新生成机会节点结果的新决策节点添加到树中。UCT 的后续滚动阶段进行了修改，在算法的每次迭代中，对每个非终端结果进行 r 次滚动。每次滚动直到遇到终端状态（子目标达成或失败），然后将获得的奖励反向传播并累积到根节点。

不同类型节点的奖励更新方式如下：
- 机会节点 ：与 ak
i 相关的机会节点的奖励 f(ak
i ) ∈ [−1, 1] 计算

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。