【机器学习】梯度下降法的相关介绍

最新推荐文章于 2025-07-11 17:26:51 发布

原创最新推荐文章于 2025-07-11 17:26:51 发布 · 827 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#梯度下降 #机器学习 #最优化 #随机梯度下降 #SGD

Image Processing 专栏收录该内容

12 篇文章

订阅专栏

本文深入探讨了机器学习中利用梯度下降法最小化代价函数的过程，详细解释了代价函数的构成、梯度的概念及计算方法，并对比了批量梯度下降、随机梯度下降和梯度下降法的不同应用。文章强调了如何通过梯度信息有效地调整参数以优化模型性能。

我们考虑一个代价函数 $C$ ，这个函数可以将一个参数向量 $\theta$ 映射到一个标量 $C(\theta)$ 上，现在，我们要最小化 $C(\theta)$ 。在机器学习中，这个代价函数通常是损失函数的平均值或者期望值：

C (θ) = 1 n \sum i = 1 n L (f θ, z i)

$C(\theta) = \frac{1}{n} \sum_{i=1}^{n} L(f_{\theta},z_i)$ （这个数值被称为训练损失）或者

C (θ) = \int L (f θ, z) P (z) d z

$C(\theta) = \int L(f_{\theta},z)P(z)dz$ （这个数值被称为泛化损失）。其中在监督学习中，我们有

z=(x,y) $z=(x,y)$ 且

fθ(x) $f_{\theta}(x)$ 是参数为

θ $\theta$ 的

y $y$ 的预测值。

梯度

函数 $C$ 关于标量 $\theta$ 的梯度，定义如下形式：

\partial C ( θ ) \partial θ = lim δ θ \to 0 C ( θ + δ θ ) - C ( θ ) δ θ

$\frac{\partial C(\theta)}{\partial \theta} = \lim_{\delta \theta \rightarrow 0} \frac{C(\theta + \delta \theta)-C(\theta)}{\delta \theta}$ 这代表的是，变化

△θ $\triangle \theta$ 引起的函数的变化

△C $\triangle C$ ，其中

△θ $\triangle \theta$ 是一个非常小的值。
当

θ $\theta$ 是一个向量，则梯度

∂C(θ)∂θ $\frac{\partial C(\theta)}{\partial \theta}$ 也是一个向量，其中每个元素是关于

θi $\theta_i$ 的

∂C(θ)∂θi $\frac{\partial C(\theta)}{\partial \theta_i}$ ，其中假设其他参数是固定的，仅仅改变

△θi $\triangle \theta_i$ 并测量函数的变化量

△C $\triangle C$ 。当

△θi $\triangle \theta_i$ 很小的时候，

△C△θi $\frac{\triangle C}{\triangle \theta_i}$ 变为了

∂C(θ)∂θi $\frac{\partial C(\theta)}{\partial \theta_i}$ 。

梯度下降法

我们希望找到一个 $\theta$ 以最小化 $C(\theta)$ 的值。我们可以对其求导：

\partial C ( θ ) \partial θ = 0

$\frac{\partial C(\theta)}{\partial \theta} = 0$ 然后我们找到最小值点(最大值点和马鞍点)，但是通常我们找不到这个方程的解析解。所以我们要使用数值最优化方法。多数的最优化方法是基于局部下降的：通过对

θ $\theta$ 的迭代调整，减少

C(θ) $C(\theta)$ 的值，直到数值不能继续下降。最终我们可以找到一个局部极小点（幸运地话，可以找到全局极小点）。
在基于梯度的优化方法中，最简单的方法是梯度下降法。它存在很多变型形式，我们先定义最原始的梯度下降：

θ k + 1 = θ k - ε k \partial C ( θ k ) \partial θ k

$\theta^{k+1} = \theta^{k} - \varepsilon_k \frac{\partial C(\theta^k)}{\partial \theta^k}$ 其中，

θk $\theta^k$ 代表第

k $k$ 次迭代的参数，

εk $\varepsilon_k$ 是一个标量，我们称为学习率(learning rate)，选取这个值是，我们可以固定、自适应或者根据一个下降方案选择。

随机梯度下降

我们可以发现 $C$ 的公式是一个平均值，是在独立同分布(i.i.d)的样本集上的。为了更快的迭代 $\theta$ ，我们舍去精确的计算，而采用一个样本：

θ k + 1 = θ k - ε k \partial L ( θ k , z ) \partial θ k

$\theta^{k+1} = \theta^{k} - \varepsilon_k \frac{\partial L(\theta^k,z)}{\partial \theta^k}$ 其中，z是训练集的下一个样本，或者在在线设定中（没有固定的训练样本数，但是存在连续不断的样本流）是训练分布的下一个采样的样本。随机梯度下降法(SGD)其实更加通用，它的更新方向是一个随机变量，这个随机变量的期望是真实的梯度下降方向。SGD除了它随机性的增长以外，收敛条件和其他的梯度下降法相同。
SGD比原始的梯度下降法具有更快的速度，因为它更新的速度很快。特别是在大数据集的情况下，或者对于在线设定。其实，对于机器学习任务而言，只有在最优化函数不能分解时，才使用传统的梯度下降法。