决策理论多智能体规划:原理、模型与算法
1. 决策理论规划概述
决策理论规划旨在不确定性环境下,通过最大化被称为效用的性能指标期望值来选择行动。它明确考虑了行动结果和领域状态的不确定性,目标是优化效用而非仅仅满足特定目标。例如,对于太空探索漫游车,决策理论规划可在漫游车进度和电池电量不确定的情况下,最大化科学回报(以特定任务中收集数据的数量或价值衡量)。
当应用于多智能体系统时,决策理论规划同时优化局部规划和协调决策。每个行动的价值基于其对领域的影响、向其他智能体传递的信息以及从领域或其他智能体获取的信息。这样,单个规划过程就能优化综合价值,从而同时优化领域行动和协调。
2. 处理不确定性规划的标准框架
处理不确定性规划的标准框架是马尔可夫决策过程(MDP)。该模型使用一组状态表示领域,适用于单个决策者,其行动会导致随机转移到新状态并获得可能依赖于行动和结果的奖励。部分可观测马尔可夫决策过程(POMDP)是基本模型的推广,考虑了不完美的观测。在POMDP中,决策者在采取每个行动后接收关于世界状态的部分信息,此时智能体需维护一个信念状态(领域状态上的概率分布),并在不知道世界确切状态的情况下行动。
解决单智能体POMDP的一个关键发现是,任何POMDP都可视为信念状态MDP,即领域状态是现实世界状态上概率分布的MDP。但在多智能体情况下并非如此,这使得规划变得更加复杂。目前已开发出一系列精确和近似动态规划算法来解决MDP和POMDP,这些算法已在许多实际应用中得到使用。
3. 多智能体协调规划问题
当两个或更多智能体需要协调行动时,会出现更一般的规划问题。例如,两个太空探索漫游车执行实验时,一个
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



