49、运动规划中的值迭代与反馈规划详解

运动规划中的值迭代与反馈规划详解

1. 插值与连续动作空间

在运动规划里,插值是一项重要技术。通过重心细分,可将每个立方体划分为单纯形,使插值能在 $O(n \lg n)$ 时间内完成,而非 $O(2^n)$。对于一组采样点 $S$,插值区域 $R(S)$ 有着明确的定义:$x \in R(S)$ 当且仅当 $x$ 的所有插值邻点都在 $S$ 中。若用采样网格近似 $G^*$,随着采样分辨率提高,$X \setminus R(S)$ 的体积趋近于零。

当状态空间 $X$ 和动作空间 $U(x)$ 均为连续时,动态规划递推式 (8.56) 保持不变。但此时,最小值的求解变成了对不可数无限个选择的优化问题。解决方法有两种:
- 非线性优化技术 :采用非线性优化技术从 $U(x)$ 中选取最优的 $u$,不过其效果很大程度取决于 $U(x)$、$X$ 和成本函数。
- 有限样本评估 :从 $U(x)$ 中选取有限样本集来评估 (8.56),最好选择能尽量降低离散度的样本。在某些情况下,可通过巧妙利用成本 - 到 - 目标函数的性质及其插值表示,排除一些不必要的动作。

2. 与反馈运动规划的联系

运用值迭代解决运动规划问题时,需考虑以下几个关键方面:
- 动作空间有界 :为了能用有限样本集近似动作空间 $U(x)$,可将其限制为 $U(x) = {u \in R^n | |u| \leq 1}$。有时为提高性能,可仅考虑 $|u| = 1$ 或 $u = 0$ 的情况,但可能会出现数值不稳定问题。有限样本集应具有低离散度且

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值