迭代求解最优化问题——最小二乘问题、高斯牛顿法

最新推荐文章于 2025-05-25 22:55:43 发布

原创最新推荐文章于 2025-05-25 22:55:43 发布 · 1.9w 阅读

64 ·

CC 4.0 BY-SA版权

文章标签：

#优化 #最小二乘法 #高斯牛顿

数值优化同时被 2 个专栏收录

8 篇文章

订阅专栏

算法

6 篇文章

订阅专栏

本文详细介绍了最小二乘问题的概念及解决方法，包括线性和非线性情况，并深入探讨了高斯牛顿法的原理及其在非线性优化中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最小二乘问题

最小二乘问题是应用最广泛的优化问题，它的一般形式如下：
$min_x ||r(x)||^2$
该问题的损失函数为 $S(x)=||r(x)||^2$ 。其中r(x)为残差函数，一般表示预测值与实际值的差别。一个最简单的最小二乘问题就是线性回归问题，对于这个问题的求解可以用上一节所说的梯度下降法，这也是机器学习领域常用的一种做法。

线性最小二乘问题

线性最小二乘问题是最简单的最小二乘问题，它的一般形式如下：
$min_x ||Ax-b||^2$
线性最小二乘问题的求解很容易，
令 $h(x) = ||Ax-b||^2 = (Ax-b)^T(Ax-b)$
对它求导并且令导数为零得到 $A^TAx-A^Tb=0$ ，这称为最小二乘问题的标准方程（normal equation）。

解得 $x = (A^TA)^{-1}A^Tb$
熟悉线性回归模型的话就可以发现，这就是线性回归模型参数的解析解。

非线性最小二乘问题

上面的问题中有 $r (x) = A x - b$ 。r(x)是一个线性函数。对它求导得到Jacobian矩阵 $J_r=A$ 。于是有 $x = (J_r^TJ_r)^{-1}J_r^Tb$ 。

而许多最小二乘问题的残差函数并不是线性的，此类问题称为非线性优化问题。

对于非线性优化的问题当然可以结合具体的残差函数进行分析，但是对于一般的函数，我们也可以通过将非线性函数进行线性化的方式进行迭代求解。具体来说，假设在x的某个领域可以对函数进行线性逼近，则由泰勒展开
$r(x0+Δ)=r(x0)+JrΔr(x_0+\Delta) = r(x_0)+J_r\Delta$

求解 $min⁡Δ∣∣r(x0+Δ)∣∣2=min⁡Δ∣∣r(x0)+JrΔ∣∣2\min_\Delta||r(x_0+\Delta)||^2=\min_\Delta||r(x_0)+J_r\Delta||^2$

由上面线性最小二乘问题的推导可以得出此问题的解为 $Δ=−(JrTJr)−1JrTr(x0)\Delta = -(J_r^TJ_r)^{-1}J_r^Tr(x_0)$ 。

于是通过不断迭代 $x(k+1)=x(k)+αΔx^{(k+1)}=x^{(k)}+\alpha\Delta$ ，我们可以对非线性最小二乘问题的解进行逼近

高斯牛顿法

上述使用迭代求解非线性最小二乘问题的方法称为高斯牛顿法。它是牛顿法求解非线性最小二乘问题时的一个特例。
事实上，对损失函数：
$S(β)=∣∣r(β)∣∣2S(\beta)=||r(\beta)||^2$
使用牛顿法有
$β(s+1)=β(s)−H−1g\beta^{(s+1)}=\beta^{(s)}-H^{-1}g$
H为S对 $β\beta$ 的二次导，g为S对 $β\beta$ 的梯度。