深度学习优化方法：梯度下降法及其变形

最新推荐文章于 2024-11-15 23:23:23 发布

原创

最新推荐文章于 2024-11-15 23:23:23 发布 · 1.9k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #优化 #算法 #梯度下降算法 #随机梯度下降算法

本文介绍了深度学习中的优化方法，重点讲解了梯度下降法的三种形式：批量梯度下降（BGD）、小批量梯度下降（MBGD）和随机梯度下降（SGD）。每种方法的更新策略、优缺点以及在大规模数据集中的应用进行了讨论。通过对比，突显了SGD和MBGD在训练速度和计算效率上的优势，但也指出它们可能的收敛问题。

优化与大家的日常生活息息相关。具体是指改变输入 $x$ 以最小化或者最大化某个函数 $f(x)$ 。如空调温度固定到多少时会使耗能最小、工厂需要多少机器才能效益最大……通常都以最小化 $f(x)$ 指代大多数最优化问题，因为最大化可经由最小化算法优化 $-f(x)$ 来实现。具体的描述如下所示：

x * = arg min f (x), x 为 实 数 .

$x^{*}=\arg \min f(x),x为实数.$

如何确定较好的的最小化算法使得上述问题的求解高效准确？先假定函数的导数记为 $f^{'}(x)$ 或 $\partial f(x)/\partial x$ ，表示的是 $f(x)$ 在点 $x$ 处的斜率。直观的描述是导数表明如何缩放输入的小变化才能在输出获得相应的变化：

f (x + ϵ) \approx f (x) + ϵ f' (x) .

$f(x+\epsilon)\approx f(x)+\epsilon f^{'}(x).$

因此发现导数对于函数最小化优化很有用，它可以直接告诉我们如何更改 $x$ 来略微改善 $y=f(x)$ 。例如在最小化问题中，我们知道对于足够小的 $\epsilon$ 来说， $f(x-\epsilon \text{sign}(f^{'}(x))$ 是比 $f(x)$ 小的。因此可以通过向导数的反方向移动一小步来减小 $f(x)$ 。这种技术便被成为梯度下降（Gradient Descent）。梯度下降建议的新点为：