本节只简要讲述原理,下一篇附有代码和图形比较说明。
输入向量![]()
![]()

残差平方和(Residual sum of squares)

矩阵表达式:
![]()
![]()
![]()
![]()
![]()
线性回归的标准方程法可以直接从上述推导中得到:
![]()
梯度下降法的每一次迭代需要遍历整个数据集计算后更新一次参数,其中
为学习率:



显然当数据集非常大的时候,梯度下降的每次更新都十分消耗计算资源,而且也容易发现它在收敛的速度非常的慢。因此就有了随机梯度下降算法。
随机梯度下降(online)在一次迭代过程中:每次更新参数并不是遍历所有数据,而是遍历每个数据更新一次参数,直到遍历完毕后将数据集打乱继续进行下一次迭代,维基百科伪代码如下:

批量梯度下降与随机梯度下降有所不同,每一次迭代过程遍历的不是全部数据集,而是打乱后的数据集的子集,对子集进行遍历,每遍历一条数据更新一次参数。

本文简要介绍线性回归的基本原理,并对比了梯度下降法、随机梯度下降法及批量梯度下降法在参数更新上的差异。通过本节内容的学习,读者可以了解这些方法的工作原理及其在大数据集上的表现。
2972

被折叠的 条评论
为什么被折叠?



