最小二乘法解法总结：梯度下降法、牛顿法、高斯-牛顿法_最小二乘法偏导,梯度下降法-优快云博客

本文深入探讨了最佳预测系数的推导过程，详细解释了如何通过最小二乘法寻找最佳函数匹配，涵盖了从一元线性回归到多元非线性方程的求解方法，包括梯度下降法、牛顿法、高斯-牛顿法等优化算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最佳预测系数推导

$E[d^2]=E[(S(k)-S_e(k))^2]=E\Bigg[\bigg(S(k)-\sum_{i=1}^Na_iS(k-i)\bigg)^2\Bigg]$
对系数 $a_i$ 求偏导，使偏导数等于0：
$\frac{\partial E[d^2]}{\partial a_i}=0，i=0,1,2......,N$

$\frac{\partial E[d^2]}{\partial a_i}=E\Bigg[-2\bigg(S(k)-\sum_{j=1}^Na_jS(k-j)\bigg)S(k-i)\Bigg]=0$
故可以得到：
$E[S(k)S(k-i)]=E\Bigg[\sum_{j=1}^Na_jS(k-j)S(k-i)\Bigg]$
利用自相关函数 $R(k)=E[S_kS_{k-i}],$ 将上式作展开得到：
$\begin{aligned} R(1)=a_1R(0)+a_2R(1)+.......a_NR(N-1)\\ R(2)=a_1R(1)+a_2R(2)+.......a_NR(N-2)\\ R(3)=a_1R(2)+a_2R(3)+.......a_NR(N-3)\\ .........................................................\\......................................................\\R(N)=a_1R(N-1)+a_2R(N-2)+.......a_NR(0) \end{aligned}$

写为矩阵形式则为：
$\begin{bmatrix}R(0)&R(1)&R(2)&......&R(N-1)\\R(1)&R(2)&R(3)&......&R(N-2)\\....\\R(0)&R(N-1)&R(N-2)&......&R(0) \end{bmatrix} \quad \begin{bmatrix} a_1\\a_2\\...\\a_N\end{bmatrix} \quad = \begin{bmatrix} R(1) \\R(2)\\...\\R(N) \end{bmatrix} \quad$

最小二乘法

最小二乘法是用来做函数拟合或者求函数极值的方法，通过最小化误差的平方和寻找数据的最佳函数匹配。
以最简单的一元线性回归模型为例，假设我们在观测中得到了 $m$ 个样本：
$x^1,y^1),(x^2,y^2) .....(x^m,y^m)$
通过散点图对其建立了一元线性回归模型： $y = a x + b$ , 对于每一个观测的样本值，都对应了两个拟合参数 $a_i$ 与 $b_i$ ，由此我们可以建立误差函数
$J（a，b）=\sum_{i=1}^m(y^i-y(x^i))^2=\sum_{i=1}^m(y^i-ax^i-b)$
如此一来问题便转化为找到最佳的参数 $a$ 和 $b$ ，使得误差函数 $J (a, b)$ 的值达到最小。
其中解法有许多种，有对参数 $a$ 和 $b$ 求偏导，使偏导数等于0，得到方程再求解的代数解法，但较为麻烦，通常使用矩阵的解法，设拟合函数的矩阵表达式为：

$H （ X ） = X θ$
其中θ为拟合函数的系数矩阵，X为样本矩阵，X的维度即为样本的维度，则误差函数的矩阵可以表示为：
$J（θ）=\frac{1}{2}(Xθ-Y)^T(Xθ-Y)$
对θ求偏导使偏导数等于0：
$\frac{\partial J（θ）}{\partialθ}=X^T(Xθ-Y)=0$
整理后得到：

$XX^Tθ=X^TY$ ，两边同时乘 $XX^T)^{-1}$ ,得到 $θ=(XX^T)^{-1}X^TY$ ,即为所求最佳参数矩阵

梯度下降法

梯度下降法是一种计算量更小的最小二乘法解法，对涉及到多维、多元的线性回归方程，梯度下降法比矩阵解法更有优势。
从数学上的角度来看，梯度的方向是函数增长速度最快的方向，那么梯度的反方向就是函数减少最快的方向，故沿着梯度的反方向便能找到误差函数的最小值。

下降步骤

若我们要求一个多元函数 $f(x)=(x_1,x_2,...,x_n)$ 的最小值，设起始点 $x^{(1)}=(x_1^{(1)},x_2^{(1)},...,x_n^{(1)})$ ,则在此点处的梯度为：
$\nabla f(x^{(1)})=(\frac{\partial f}{\partial x_1^{(1)}}+\frac{\partial f}{\partial x_2^{(1)}}+...\frac{\partial f}{\partial x_n^{(1)}})$
进行第一次梯度下降：
$x^{(2)}=x^{(1)}-α.\nabla f(x^{(1)})$
式中α为梯度下降的步长，之后便重复上面的步骤进行迭代，得到的函数收敛时，可以认为取到了最小值。
在应用中可以设置精度 ε ，当函数在某点梯度的模小于ε时，可以认为取到了最小值。

牛顿法

牛顿法同样是通过迭代运算来寻求最优解的算法，相比于梯度下降法，其收敛速度更快。
牛顿法的原理是泰勒级数展开，通过前面的几项来近似代替求根公式复杂的方程的解：

将 $f (x)$ 在 $x_0$ 处展开为泰勒级数：
$f(x)=f(x_0)+f'(x_0)(x-x_0)+ \frac{1}{2} f''(x_0)(x-x_0)^2+.......$
取线性部分作为近似解，首先使用一阶展开 $f(x)=f(x_0)+f'(x_0)(x-x_0)=0$ 作为 $f (x) = 0$ 的近似解,解得：
$x_1=x_0-\frac{f(x_0)}{f'(x_0)}$
上面步骤所得到的只是一个近似解，要得到更高精度的解，要进行迭代：
$x_{n+1}=x_n-\frac{f'(x_n)}{f''(x_n)}$
当迭代次数足够大时，所得的 $f(x_{n+1})$ 无限趋近于0

上述为一维函数的牛顿法迭代公式，若为高维的函数，则用高维函数的泰勒展开推导，最终可得到迭代公式：
$x_{n+1}=x_n-H(f(x_n))^{-1}\nabla f(x_n)$
其中 $H(f(x_n))$ 为海森矩阵：
$H(f)=\begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial ^2f}{\partial x_1 \partial x_2} &...&\frac{\partial^2 f}{\partial x_1 \partial x_n}\\ \frac{\partial ^2f}{\partial x_2 \partial x_1}&\frac{\partial^2 f}{x_2^2}& ... &\frac{\partial ^2f}{\partial x_2 \partial x_n}\\ ...&...& &...\\\frac{\partial ^2f}{\partial x_n \partial x_1}&\frac{\partial^2 f}{\partial x_n \partial x_2}&...&\frac{\partial^2 f}{x_n^2}\\\end{bmatrix} \quad$

高斯-牛顿法

以上讨论的都是线性的方程，而对于非线性的最小二乘问题，可以通过高斯-牛顿法求解。高斯-牛顿法其本质为牛顿法的特例，依然是迭代求解。

设观测到N个数据点 $x_1,y_1),(x_2,y_2),...(x_n,y_n)]$ ,得到包含M个参数的非线性方程 $f(x,a_1,a_2...a_m)$ 拟合这N个数据点，设 $f_1(a)=f(x1,a_1,a_2...a_m)$ , 则误差函数为：
$ε(a)=\sum_{i=1}^N ||f_i(a)-yi||^2$

对参数 $a_j$ 求偏导，使其等于0，得到方程：
$\frac{\partial ε(a)}{\partial a_j}=\sum_{i=1}^N 2(f_i(a)-y_i)*\frac{\partial f_i(a)}{\partial a_j} =0$

令 $r=\begin{bmatrix}f_1(a)-y_1\\f_2(a)-y_2\\...\\f_N(a)-y_N \end{bmatrix} \quad$ ,则方程可写为矩阵形式：
$\nabla ε(a)=2J^Tr$

其中 $J$ 为 $f (a)$ 的雅各比矩阵：
$J=\begin{bmatrix} \frac{\partial f_1(a)}{\partial a_1} & \frac{\partial f_1(a)}{\partial a_2} &...&\frac{\partial f_1(a)}{\partial a_M}\\ \frac{\partial f_2(a)}{\partial a_1} & \frac{\partial f_2(a)}{\partial a_2} &...&\frac{\partial f_2(a)}{\partial a_M}\\ ...&...& &...\\\frac{\partial f_N(a)}{\partial a_1} & \frac{\partial f_N(a)}{\partial a_2} &...&\frac{\partial f_N(a)}{\partial a_M}\\\end{bmatrix} \quad$

代入牛顿法的迭代公式中：
$a_{n+1}=a_n-H^{-1}J^Tr$
其中海森矩阵的第k行第j列的元素为：
$\frac{\partial^2 ε(a) }{\partial a_k\partial a_j}=2\sum_{i=1}^N\bigg (\frac{\partial f_i(a) }{\partial a_k}.\frac{\partial f_i(a) }{\partial a_j}+(f_i(a)-y_i).\frac{\partial^2 f_i(a) }{\partial a_k\partial a_j} \bigg )$
故可得：
$H=2(J.J^T+S)$
$S=\sum_{i=1}^N(f_i(a)-y_i).\frac{\partial^2 f_i(a) }{\partial a_k\partial a_j}$
在实际应用中很多时候 $S$ 都可以忽略不计，代入迭代式中得到最终的迭代方程：
$a_{n+1}=a_n-(J.J^T)^{-1}J^Tr$