复杂决策与多智能体决策的深度剖析
复杂决策基础:MDPs与POMDPs
在不确定的环境中做决策是一项极具挑战性的任务,因为行动的结果往往不确定,而且奖励可能要在一系列行动之后才能获得。为了解决这类问题,我们引入了马尔可夫决策过程(MDPs)和部分可观测马尔可夫决策过程(POMDPs)。
MDPs的核心概念
MDPs由转移模型和奖励函数定义。转移模型描述了行动的概率结果,奖励函数则规定了每个状态下的奖励。状态序列的效用是该序列中所有奖励的总和,可能会随时间进行折扣。MDP的解决方案是一个策略,它将决策与智能体可能到达的每个状态相关联,最优策略能使执行过程中遇到的状态序列的效用最大化。
状态的效用是从该状态执行最优策略时的预期奖励总和。价值迭代算法通过迭代求解一组将每个状态的效用与其相邻状态的效用相关联的方程来解决MDP问题。策略迭代则在计算当前策略下状态的效用和根据当前效用改进当前策略之间交替进行。
POMDPs的挑战与解决方法
POMDPs比MDPs更难解决,因为智能体只能部分观测环境。不过,我们可以将POMDP转换为信念状态连续空间中的MDP来解决。价值迭代和策略迭代算法都已被应用于POMDP的求解。在POMDP中,最优行为包括收集信息以减少不确定性,从而在未来做出更好的决策。我们可以构建一个决策理论智能体来处理POMDP环境,该智能体使用动态决策网络来表示转移和传感器模型,更新其信念状态,并预测可能的行动序列。
示例说明
以一个4×3的POMDP为例,墙感知误差为ϵ = 0.2。智能体的感知、信念状态和行动序列如下:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



