58、顺序决策理论:反馈规划与价值迭代

反馈规划与价值迭代详解

顺序决策理论:反馈规划与价值迭代

1. 引言

在决策过程中,由于自然因素导致的不可预测性,使得计划的定义和执行需要分离。为了应对这种不确定性,反馈规划变得至关重要,它能根据不同的状态产生相应的行动。同时,价值迭代方法可以有效地处理预测中的不确定性,帮助我们找到最优的反馈规划。

2. 前向投影和后向投影
2.1 前向投影

前向投影是描述计划执行过程中行为的有用概念。在考虑不确定性之前,计划可以按预期精确执行;但现在状态转移不可预测,我们需要想象未来可能出现的状态。
- 非确定性前向投影
- 假设初始状态 (x_1 = x_I) 已知,应用动作 (u_1 \in U) 后,可能的下一个状态集合为 (X_2(x_1, u_1) = {x_2 \in X | \exists\theta_1 \in \varTheta(x_1, u_1) \text{ 使得 } x_2 = f (x_1, u_1, \theta_1)})。
- 若再应用动作 (u_2 \in U),从 (x_1) 先应用 (u_1) 再应用 (u_2) 可能到达的状态集合为 (X_3(x_1, u_1, u_2) = {x_3 \in X | \exists\theta_1 \in \varTheta(x_1, u_1) \text{ 和 } \exists\theta_2 \in \varTheta(x_2, u_2) \text{ 使得 } x_2 = f (x_1, u_1, \theta_1) \text{ 和 } x_3 = f (x_2, u_2, \theta_2)})。
- 递归公式为 (X_{k + 1}(X_

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值