Deep Leaning 学习笔记之改善神经网络的超参数（2.1）—— 优化算法速度（小批量、动量、均方根、adam优化算法）

最新推荐文章于 2022-10-07 19:04:54 发布

Aperact

最新推荐文章于 2022-10-07 19:04:54 发布

阅读量627

点赞数

CC 4.0 BY-SA版权

分类专栏： DeepLearning

本文链接：https://blog.youkuaiyun.com/m0_37108127/article/details/97891326

本文详细介绍了深度学习中改善神经网络超参数的方法，包括小批量梯度下降的概念、常用小批量份数及其影响，动量梯度下降、RMSprop及Adam优化算法的原理和使用方法。此外，还讨论了学习速率衰减的概念和策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.小批量梯度下降mini-batch

小批量梯度下降，顾名思义，指的是：
假如有一个训练集，大小为1,000,000，每次运行梯度下降，都需要整体遍历一遍数据集之后才能够运行一步。
小批量梯度下降，则将这一百万个样本，分成多份，每1000个样本（可以是其他数字）成为一个小批量。每次运行一个小批量样本时，梯度更新一次。那么，遍历整体一百万个样本时，梯度会更新1000次，即走1000步。
小批量维度：
$X^{t}∈(X_n,1000)$
$Y^t ∈ (1,1000)$

一般来说，当样本数量 $\leq$ 2000时，直接采用梯度下降算法
当样本数量$＞$2000时，采取小批量梯度下降
每一组的样本数可以分为： $64, 128, 256, 512$ 等等，都是以2的幂次方为准
所有的X{t} Y{t}都是要放在CPU/GPU中的，这和你的配置，以及一个训练样本的大小都有关系，但是如果你使用的mini-batch超过了 CPU/GPU 内存的容量，不管你怎么做你都会发现，结果会突然变得很糟。

和梯度下降类似，只不过梯度下降的X变成了X{t}。
repeat （for i = 1 to $m/m_t$ ）：
前向传播 $\to$ 计算Z,A值 $\to$ 反向传播 $\to$ 计算梯度 $\to$ 更新梯度。

以温度为例。
公式： $V_t=βV_{t-1} + (1-β)θ_t$
$\approx 1 / (1 - β) 天的平均气温$