最优化理论与自动驾驶（八）：ILQR正则化和line search

机械心

已于 2024-09-17 17:42:35 修改

阅读量1.5k

点赞数 5

分类专栏：最优化理论文章标签：自动驾驶人工智能机器学习

于 2024-09-08 14:04:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/a8598671/article/details/142024710

版权

（六）ILQR正则化和line search

1. ILQR正则化

在iLQR中，我们通常线性化系统动力学并对目标函数进行二阶近似。在反向传播步骤中，我们需要计算逆矩阵 $Q_{uu}$ （控制变量对目标函数的二阶导数矩阵），用以更新控制增量。但在某些情况下， $Q_{uu}$ 可能是奇异的或者接近奇异，导致逆矩阵的计算不稳定。为了避免这种问题，可以通过加入正则化项，使得 $Q_{uu}$ 变得更具条件性。

方法1：基于梯度下降的正则化

一种常见的正则化方法是在 $Q_{uu}$ 上加上一个对角项，这类似于梯度下降中的学习率调节。

令正则化矩阵为 $\lambda I$ ，其中 $I$ 是单位矩阵， $\lambda$ 是正则化系数。我们可以将 $Q_{uu}$ 调整为：

$Q_{uu}^{\text{reg}} = Q_{uu} + \lambda I$

通过这种方式，即便 $Q_{uu}$ 是非正定或接近奇异的，我们仍然可以通过计算 $Q_{uu}^{\text{reg}}$ 的逆矩阵来进行控制更新。

方法2：信赖域正则化（Trust-Region Regularization）

另一种正则化方法是基于信赖域（trust region）优化的思想。我们在优化控制增量时限制其大小。具体而言，控制增量 $\delta u_k$ 的大小受限于一个固定范围：

$\|\delta u_k\| \leq \Delta$

这种方法通过限制更新步长来确保每一步的更新都不会过大，从而提高优化的鲁棒性。

正则化对算法的影响

收敛性：适当的正则化能够提高 DDP 收敛的稳定性，但过大的正则化参数 $\lambda$ 可能会减慢算法的收敛速度。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。