(六)ILQR正则化和line search
1. ILQR正则化
在iLQR中,我们通常线性化系统动力学并对目标函数进行二阶近似。在反向传播步骤中,我们需要计算逆矩阵(控制变量对目标函数的二阶导数矩阵),用以更新控制增量。但在某些情况下,
可能是奇异的或者接近奇异,导致逆矩阵的计算不稳定。为了避免这种问题,可以通过加入正则化项,使得
变得更具条件性。
方法1:基于梯度下降的正则化
一种常见的正则化方法是在上加上一个对角项,这类似于梯度下降中的学习率调节。
令正则化矩阵为,其中
是单位矩阵,
是正则化系数。我们可以将
调整为:
通过这种方式,即便是非正定或接近奇异的,我们仍然可以通过计算
的逆矩阵来进行控制更新。
方法2:信赖域正则化(Trust-Region Regularization)
另一种正则化方法是基于信赖域(trust region)优化的思想。我们在优化控制增量时限制其大小。具体而言,控制增量的大小受限于一个固定范围:
这种方法通过限制更新步长来确保每一步的更新都不会过大,从而提高优化的鲁棒性。
正则化对算法的影响
收敛性: 适当的正则化能够提高 DDP 收敛的稳定性,但过大的正则化参数可能会减慢算法的收敛速度。