顺序决策理论:反馈规划与价值迭代
1. 引言
在决策过程中,由于自然因素导致的不可预测性,使得计划的定义和执行需要分离。为了应对这种不确定性,反馈规划变得至关重要,它能根据不同的状态产生相应的行动。同时,价值迭代方法可以有效地处理预测中的不确定性,帮助我们找到最优的反馈规划。
2. 前向投影和后向投影
2.1 前向投影
前向投影是描述计划执行过程中行为的有用概念。在考虑不确定性之前,计划可以按预期精确执行;但现在状态转移不可预测,我们需要想象未来可能出现的状态。
- 非确定性前向投影 :
- 假设初始状态 (x_1 = x_I) 已知,应用动作 (u_1 \in U) 后,可能的下一个状态集合为 (X_2(x_1, u_1) = {x_2 \in X | \exists\theta_1 \in \varTheta(x_1, u_1) \text{ 使得 } x_2 = f (x_1, u_1, \theta_1)})。
- 若再应用动作 (u_2 \in U),从 (x_1) 先应用 (u_1) 再应用 (u_2) 可能到达的状态集合为 (X_3(x_1, u_1, u_2) = {x_3 \in X | \exists\theta_1 \in \varTheta(x_1, u_1) \text{ 和 } \exists\theta_2 \in \varTheta(x_2, u_2) \text{ 使得 } x_2 = f (x_1, u_1, \theta_1) \text{ 和 } x_3 = f (x_2, u_2, \theta_2)})。
- 递归公式为 (X_{k + 1}(X_
反馈规划与价值迭代详解
超级会员免费看
订阅专栏 解锁全文

172万+

被折叠的 条评论
为什么被折叠?



