63、复杂决策与多智能体决策的深度剖析

rust6ferris

于 2025-08-15 11:46:26 发布

阅读量39

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能：现代方法精解文章标签： MDPs POMDPs 多智能体系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/rust6ferris/article/details/151887369

人工智能：现代方法精解专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

复杂决策与多智能体决策的深度剖析

复杂决策基础：MDPs与POMDPs

在不确定的环境中做决策是一项极具挑战性的任务，因为行动的结果往往不确定，而且奖励可能要在一系列行动之后才能获得。为了解决这类问题，我们引入了马尔可夫决策过程（MDPs）和部分可观测马尔可夫决策过程（POMDPs）。

MDPs的核心概念

MDPs由转移模型和奖励函数定义。转移模型描述了行动的概率结果，奖励函数则规定了每个状态下的奖励。状态序列的效用是该序列中所有奖励的总和，可能会随时间进行折扣。MDP的解决方案是一个策略，它将决策与智能体可能到达的每个状态相关联，最优策略能使执行过程中遇到的状态序列的效用最大化。

状态的效用是从该状态执行最优策略时的预期奖励总和。价值迭代算法通过迭代求解一组将每个状态的效用与其相邻状态的效用相关联的方程来解决MDP问题。策略迭代则在计算当前策略下状态的效用和根据当前效用改进当前策略之间交替进行。

POMDPs的挑战与解决方法

POMDPs比MDPs更难解决，因为智能体只能部分观测环境。不过，我们可以将POMDP转换为信念状态连续空间中的MDP来解决。价值迭代和策略迭代算法都已被应用于POMDP的求解。在POMDP中，最优行为包括收集信息以减少不确定性，从而在未来做出更好的决策。我们可以构建一个决策理论智能体来处理POMDP环境，该智能体使用动态决策网络来表示转移和传感器模型，更新其信念状态，并预测可能的行动序列。

示例说明

以一个4×3的POMDP为例，墙感知误差为ϵ = 0.2。智能体的感知、信念状态和行动序列如下：

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。