梯度下降法

最新推荐文章于 2020-09-28 18:39:20 发布

原创最新推荐文章于 2020-09-28 18:39:20 发布 · 1.5k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #神经网络 #深度学习

机器学习专栏收录该内容

12 篇文章

订阅专栏

文章目录

1. 什么是梯度
2. 梯度下降
3. 梯度下降算法

在机器学习中，我们通常会根据输入 x 来预测输出 y，预测值和真实值之间会有一定的误差，我们在训练的过程中会使用优化器（optimizer）来最小化这个误差，梯度下降法（Gradient Descent）就是一种常用的优化器

1. 什么是梯度

梯度是一个向量，具有大小和方向。想象我们在上山，从我所在的位置出发可以从很多方向上山，而最陡的那个方向就是梯度方向。对函数 $f(x_1, x_2, \cdots, x_n)$ 来讲，对于函数上的每一个点 $P(\eta_1, \eta_2, \cdots, \eta_n)$ ，我们都可以定义一个向量 $\displaystyle\left \{\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \cdots, \frac{\partial f}{\partial x_n}\right\}$ ，这个向量被称为函数 $f$ 在点 $P$ 的梯度(gradient)，记为 $\nabla f(x_1, x_2, \cdots, x_n)$ 。函数 $f$ 在 $P$ 点沿着梯度方向最陡，也就是变化速率最快。

2. 梯度下降

我们的目标是使损失函数最小化，所以我们要沿着梯度相反方向下降，这就是所谓的梯度下降。假设我们要求函数 $f(x_1,x_2)$ 的最小值，起始点为 $\displaystyle x^{(1)}=(x^{(1)}_1, x^{(2)}_2)$ ，则在 $x^{(1)}$ 点处的梯度为 $\displaystyle\nabla f(x^{(1)})=(\frac{\partial f}{\partial x_1^{(1)}}, \frac{\partial f}{\partial x^{(1)}_2})$ ，我们可以进行第一次梯度下降来更新 $x$ ：
$x^{(2)} = x^{(1)} - \alpha \nabla{f(x^{(1)})}$
其中， $\alpha$ 被称为步长，在机器学习中也被称为学习率。这样我们就得到了下一个点 $x^{(2)}$ ，重复上面的步骤，直到函数收敛，此时可认为函数取得了最小值。

3. 梯度下降算法

在介绍实际使用的算法之前，有必要介绍下与之相关的三个概念：epoch，iteration，batch

名词	定义
Epoch	使用训练集的全部数据对模型进行一次完整训练，被称之为“一代训练”
Batch	使用训练集的一小部分样本对权重进行一次反向传播的参数更新，这一小部分样本被称为“一批数据”
Iteration	使用一个Batch数据对模型进行一次参数更新过程称为“一次训练”