不确定环境下的两阶段在线协作多智能体规划
1 引言
在多智能体系统中,如何让智能体在不确定环境下高效协作并达成目标是一个关键问题。本文将介绍一种两阶段在线多智能体规划方法,该方法适用于智能体行动具有随机结果的协作团队。首先,我们会阐述一些预备知识,接着介绍一个用于说明该方法的场景,然后详细介绍两阶段在线多智能体规划器的具体内容。
2 预备知识
2.1 离线规划与在线规划
- 离线规划 :先生成一个完整的行动计划以实现目标,然后由智能体执行。当存在多个智能体且无需保护个体隐私信息时,规划过程可集中进行,而执行则以分布式方式进行。
- 在线规划 :将规划与执行交错进行。在线规划器不会事先生成整个计划,而是返回当前状态下一个“足够好”的行动。当出现意外结果时,在线规划器能立即利用新信息,无需提前为所有可能情况进行规划。
2.2 UCT算法
UCT(Upper Confidence bounds applied to Trees)是一种结合了MCTS(蒙特卡罗树搜索)和多臂老虎机选择方法的最先进的随时算法,常用于不确定环境下的规划。UCT算法在每次迭代中包括以下四个步骤:
1. 选择(Selection) :基于选择函数选择一个子节点。
2. 扩展(Expansion) :将选定的节点随机扩展到一个未采样的新节点。
3. 模拟(Rollout) :随机模拟一个
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



