顺序决策理论中的规划算法与无限期问题
在决策理论规划领域,我们会遇到各种不同的问题场景和挑战,下面将详细介绍一些重要的算法和模型。
1. 反向投影算法与策略迭代
反向投影算法是计算非确定性不确定性下可行计划的通用算法。具体步骤如下:
1. 初始化 :令 $S = X_G$,对于每个 $x \in X_G$,设 $\pi(x) = u_T$。
2. 状态检查与更新 :对于每个 $x \in X \setminus S$,若存在 $u \in U(x)$ 使得 $x \in SB(S, u)$,则:
- 令 $\pi(x) = u$。
- 将 $x$ 插入到 $S$ 中。
3. 终止条件判断 :若步骤 2 未能扩展 $S$,则退出算法。这意味着 $SB(S) = S$,无法再取得进展;否则,返回步骤 2。
当找到改进的计划后,用 $\pi’$ 替换 $\pi$ 并返回步骤 2。例如,新计划可能产生如下方程:
$G_{\pi}(a) = 1 + \frac{1}{2}G_{\pi}(b)$
$G_{\pi}(b) = 1 + \frac{1}{4}G_{\pi}(a)$
求解这些方程可得 $G_{\pi}(a) = \frac{12}{7}$ 和 $G_{\pi}(b) = \frac{10}{7}$。后续尝试使用相关公式寻找更好的计划,但发现当前计划已无法改进,策略迭代方法正确报告 $\pi^* = \pi$ 后终止。
策略迭代相较于值迭代可能更受青睐,因为它通常
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



