最小二乘法与梯度下降法的区别？

最新推荐文章于 2025-07-09 11:06:51 发布

沉思的小豆虫

最新推荐文章于 2025-07-09 11:06:51 发布

阅读量3.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：数据挖掘、机器学习文章标签：优化参数算法

本文链接：https://blog.youkuaiyun.com/qq_27514297/article/details/53508149

本文介绍了最小二乘法在线性回归中的应用，强调了线性回归模型假设的重要性以及能够得到全局最优解的特性。同时，讨论了广义最小二乘法在深度神经网络优化中的局限性，指出在非线性问题中，如DNN，最小二乘法通常不如梯度下降法结合交叉熵准则有效。

狭义的最小二乘法：指的是在线性回归下采用最小二乘准则（或者说叫做最小平方），进行线性拟合参数求解的、矩阵形式的公式方法。所以，这里的（最小二乘法）应叫做（最小二乘算法）或者（最小二乘方法，百度百科【最小二乘法】词条中对应的英文为（The least squaremethod）。

　　这里，基于线性回归，有两个细节比较重要：

　　第一，线性回归的模型假设。这是最小二乘方法的优越性前提，否则不能推出最小二乘是最佳（即方差最小）的无偏估计，具体请参考高斯-马尔科夫定理。特别地，当随机噪声服从正态分布时，最小二乘与最大似然等价。

　　第二，由于是线性回归/拟合，因此可以很容易的求出全局最优的闭式解（close form solution）即：全局最优解，也即我们通常看到的那几个矩阵形式，给了（input data）可以一步到位计算出拟合参数，而不是像梯度下降法或者牛顿法那样一点点地迭代优化调参，最后到达极值点，即：局部最优解，二者得到的参数值可能会相同或特别接近。

　　广义的最小二乘法：是最小二乘准则，本质上是一种evaluation rule或者说objective funcion，这里的「最小二乘法」应叫做（最小二乘法则）或者（最小二乘准则），英文可呼为LSE（least square error）。

　　举个例子，我要优化一个深度神经网络DNN（Deep neural network）的网络参数（换言之，优化此网络对于已知数据拟合结果的正确性），可不可以用最小二乘准则去衡量某一拟合结果相对于标准答案的偏差程度呢？可以。而同时，由于DNN模型本身的复杂性，我们没