最优化理论与自动驾驶(八):ILQR正则化和line search

(六)ILQR正则化和line search

1. ILQR正则化

在iLQR中,我们通常线性化系统动力学并对目标函数进行二阶近似。在反向传播步骤中,我们需要计算逆矩阵Q_{uu}(控制变量对目标函数的二阶导数矩阵),用以更新控制增量。但在某些情况下,Q_{uu}可能是奇异的或者接近奇异,导致逆矩阵的计算不稳定。为了避免这种问题,可以通过加入正则化项,使得Q_{uu}变得更具条件性。

方法1:基于梯度下降的正则化

一种常见的正则化方法是在Q_{uu}上加上一个对角项,这类似于梯度下降中的学习率调节。

令正则化矩阵为\lambda I,其中I是单位矩阵,\lambda是正则化系数。我们可以将Q_{uu}调整为:

Q_{uu}^{\text{reg}} = Q_{uu} + \lambda I

通过这种方式,即便Q_{uu}是非正定或接近奇异的,我们仍然可以通过计算 Q_{uu}^{\text{reg}}的逆矩阵来进行控制更新。

方法2:信赖域正则化(Trust-Region Regularization)

另一种正则化方法是基于信赖域(trust region)优化的思想。我们在优化控制增量时限制其大小。具体而言,控制增量\delta u_k的大小受限于一个固定范围:

\|\delta u_k\| \leq \Delta

这种方法通过限制更新步长来确保每一步的更新都不会过大,从而提高优化的鲁棒性。

正则化对算法的影响

收敛性: 适当的正则化能够提高 DDP 收敛的稳定性,但过大的正则化参数\lambda可能会减慢算法的收敛速度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值