最小二乘法与梯度下降法的区别?

本文介绍了最小二乘法在线性回归中的应用,强调了线性回归模型假设的重要性以及能够得到全局最优解的特性。同时,讨论了广义最小二乘法在深度神经网络优化中的局限性,指出在非线性问题中,如DNN,最小二乘法通常不如梯度下降法结合交叉熵准则有效。

    狭义的最小二乘法:指的是在线性回归下采用最小二乘准则(或者说叫做最小平方),进行线性拟合参数求解的、矩阵形式的公式方法。所以,这里的(最小二乘法)应叫做最小二乘算法)或者(最小二乘方法,百度百科【最小二乘法】词条中对应的英文为(The least squaremethod)

  这里,基于线性回归,有两个细节比较重要:

  第一,线性回归的模型假设。这是最小二乘方法的优越性前提,否则不能推出最小二乘是最佳(即方差最小)的无偏估计,具体请参考高斯-马尔科夫定理。特别地,当随机噪声服从正态分布时,最小二乘与最大似然等价。

  第二,由于是线性回归/拟合,因此可以很容易的求出全局最优的闭式解(close form solution)即:全局最优解,也即我们通常看到的那几个矩阵形式,给了(input data)可以一步到位计算出拟合参数,而不是像梯度下降法或者牛顿法那样一点点地迭代优化调参,最后到达极值点,即:局部最优解,二者得到的参数值可能会相同或特别接近。


  广义的最小二乘法:是最小二乘准则,本质上是一种evaluation rule或者说objective funcion,这里的「最小二乘法」应叫做(最小二乘法则)或者(最小二乘准则),英文可呼为LSE(least square error)。


  举个例子,我要优化一个深度神经网络DNN(Deep neural network)的网络参数(换言之,优化此网络对于已知数据拟合结果的正确性),可不可以用最小二乘准则去衡量某一拟合结果相对于标准答案的偏差程度呢?可以。而同时,由于DNN模型本身的复杂性,我们没

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值