18、解决（PO）MDPs和最优控制问题的期望最大化方法

wind

于 2025-11-11 06:23:09 发布

阅读量20

点赞数

CC 4.0 BY-SA版权

分类专栏：贝叶斯时间序列入门文章标签：期望最大化 MDP POMDP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wind/article/details/154674410

贝叶斯时间序列入门专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

解决（PO）MDPs和最优控制问题的期望最大化方法

1. 引言

近年来，高效概率推理技术取得了显著进展，尤其是在利用离散和连续问题域的结构（如因子化、分层或关系结构）方面。这些技术可用于解决以结构化动态贝叶斯网络（DBN）形式表述的马尔可夫决策过程（MDPs）或部分可观测马尔可夫决策过程（POMDPs）。

规划与推理面临着一些共同的挑战，例如扩展到由多个状态变量构成的大状态空间，或在连续或混合连续 - 离散状态空间中实现规划（或推理）。规划领域发展出了诸如因子化马尔可夫决策过程、抽象化和环境关系模型等技术；推理技术方面则有消息传递算法、变分方法、近似信念表示和算术编译等。

虽然之前有一些将概率推理应用于决策的尝试，但都存在一定的局限性。我们提出了一个框架，将无限期MDP（或一般DBN）中最大化折扣预期未来回报的问题转化为相关有限时间MDP混合模型中的似然最大化问题，从而使用期望最大化（EM）算法计算最优策略。

2. 马尔可夫决策过程与似然最大化

马尔可夫决策过程是关于状态 ( s_t )、动作 ( a_t ) 和奖励 ( r_t ) 随机变量的随机过程，由初始状态分布 ( P(s_0 = s) )、转移概率 ( P(s_{t + 1} = s’ | a_t = a, s_t = s) )、奖励概率 ( P(r_t = r | a_t = a, s_t = s) ) 和策略 ( P(a_t = a | s_t = s; \pi) = \pi_{as} ) 定义。

解决MDP的目标是找到无限期DBN的参数 ( \pi )，以最大化期望未来回报 ( V_{\pi} = E{\sum_{t = 0}^{\infty} \ga

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。