59、决策理论规划：价值迭代与策略迭代详解

github5actions

于 2025-09-30 14:17:09 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

分类专栏：规划算法：智能决策的核心文章标签：价值迭代策略迭代决策理论规划

本文链接：https://blog.youkuaiyun.com/github5actions/article/details/154634541

规划算法：智能决策的核心专栏收录该内容

100 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

决策理论规划：价值迭代与策略迭代详解

1. 决策理论规划基础

在决策理论规划中，我们会涉及到不同阶段的状态、动作以及自然动作的影响。对于从阶段 $K$ 到阶段 $F = K + 1$ 的最优单步规划成本计算，有如下公式：
[G_{K}^ (x_K) = \min_{u_K} \max_{\theta_K} \left{ l(x_K, u_K, \theta_K) + G_{F}^ (f(x_K, u_K, \theta_K)) \right}]
这里 $u_K \in U(x_K)$ 是在状态 $x_K$ 下的动作，$\theta_K \in \Theta(x_K, u_K)$ 是自然动作，$l$ 表示成本函数，$f$ 是状态转移函数。

更一般地，当已知 $G_{k + 1}^ $ 时，可以计算 $G_{k}^ $。通过对相关公式的推导和变换，得到递推公式：
[G_{k}^ (x_k) = \min_{u_k \in U(x_k)} \left{ \max_{\theta_k} \left{ l(x_k, u_k, \theta_k) + G_{k + 1}^ (x_{k + 1}) \right} \right}]

1.1 概率情况

在概率情况下，我们使用价值迭代方法。对于从阶段 $k$ 到 $F$ 的最优规划执行下的期望成本 $G_{k}^ $ 定义为：
[G_{k}^ (xk) = \min_{uk, \ldots, uK} \left{ E_{\theta_k, \ldots, \theta_K} \left[ \sum_{i = k