决策理论规划:价值迭代与策略迭代详解
1. 决策理论规划基础
在决策理论规划中,我们会涉及到不同阶段的状态、动作以及自然动作的影响。对于从阶段 $K$ 到阶段 $F = K + 1$ 的最优单步规划成本计算,有如下公式:
[G_{K}^ (x_K) = \min_{u_K} \max_{\theta_K} \left{ l(x_K, u_K, \theta_K) + G_{F}^ (f(x_K, u_K, \theta_K)) \right}]
这里 $u_K \in U(x_K)$ 是在状态 $x_K$ 下的动作,$\theta_K \in \Theta(x_K, u_K)$ 是自然动作,$l$ 表示成本函数,$f$ 是状态转移函数。
更一般地,当已知 $G_{k + 1}^ $ 时,可以计算 $G_{k}^ $。通过对相关公式的推导和变换,得到递推公式:
[G_{k}^ (x_k) = \min_{u_k \in U(x_k)} \left{ \max_{\theta_k} \left{ l(x_k, u_k, \theta_k) + G_{k + 1}^ (x_{k + 1}) \right} \right}]
1.1 概率情况
在概率情况下,我们使用价值迭代方法。对于从阶段 $k$ 到 $F$ 的最优规划执行下的期望成本 $G_{k}^ $ 定义为:
[G_{k}^ (xk) = \min_{uk, \ldots, uK} \left{ E_{\theta_k, \ldots, \theta_K} \left[ \sum_{i = k
超级会员免费看
订阅专栏 解锁全文
1336

被折叠的 条评论
为什么被折叠?



