批量梯度下降BGD、随机梯度下降SGD、小批量随机梯度下降MSGD

最新推荐文章于 2024-06-05 23:13:11 发布

原创最新推荐文章于 2024-06-05 23:13:11 发布 · 727 阅读

CC 4.0 BY-SA版权

文章标签：

8 篇文章

订阅专栏

1 篇文章

订阅专栏

本文介绍了梯度下降法的基本概念及应用，详细解释了批量梯度下降法与随机梯度下降法的区别，并给出了具体的数学推导过程。

假设有这样一个数据样本
（ $y = 3x_1+4x_2$ ）

x1和x2是样本值，y是预测目标，我们需要以一条直线来拟合上面的数据，待拟合函数如下：

h (θ) = θ 1 x 1 + θ 2 x 2

$h(\theta) = \theta_1x_1 + \theta_2x_2$

确定一个损失函数 $x^i ,y^i 表示第i个样本$ ：

J (θ) = 1 2 m \sum i = 1 m [h θ (x i) - y i] 2

$J(\theta) = \frac{1}{2m}\sum_{i=1}^m[h_{\theta}(x^i)-y^i]^2$
其中，

J(θ) $J(\theta)$ 是损失函数，m代表每次取多少样本进行训练，如果采用SGD进行训练，那每次随机取一组样本，m=1。
我们的目标是让损失函数

J(θ) $J(\theta)$ 的值最小，根据梯度下降法，首先对

J(θ) $J(\theta)$ 求偏导：

\partial J ( θ ) \partial θ j = 2 1 2 m \sum i = 1 m [h θ (x i) - y i] x i j

$\frac{\partial{J(\theta)}}{\partial{\theta_j}} =2\frac{1}{2m}\sum_{i=1}^m[h_{\theta}(x^i)-y^i]x_j^i$

由于是要最小化损失函数，所以参数 $\theta$ 按其梯度方向来更新， $\alpha$ 为更新步长：

θ' = θ j - α \partial J ( θ ) \partial θ j = θ j + α 1 m \sum i = 1 m (y i - h θ (x i)) x i j

$\theta' = \theta_j -\alpha \frac{\partial{J(\theta)}}{\partial{\theta_j}} =\theta_j + \alpha\frac{1}{m}\sum_{i=1}^m(y^i-h_{\theta}(x^i))x_j^i$

以上是批量梯度下降法的推导，下面介绍一下随机梯度下降法。
随机梯度下降法，其实和批量梯度下降法原理类似，区别在与求梯度时没有用所有的m个样本的数据，而是仅仅选取一个样本j来求梯度。对应的更新公式是：
参数 $\theta$ 更新过程就是：

θ' = θ j - α \partial J ( θ ) \partial θ j = θ j + α (y i - h θ (x i)) x i j

$\theta' = \theta_j -\alpha \frac{\partial{J(\theta)}}{\partial{\theta_j}} =\theta_j + \alpha (y^i-h_{\theta}(x^i))x_j^i$