一、优化器
SGD(随机梯度下降)是什么?
1. 批梯度下降(Batch Gradient Descent)
- 遍历全部数据集计算一次损失函数。
- 计算量开销大,计算速度慢。
- 不支持在线学习。
2. 随机梯度下降(Stochastic Gradient Descent, SGD)
- 每次随机选择一个数据计算损失函数。
- 求梯度并更新参数,计算速度快。
- 收敛性能可能不太好。
3. 小批量随机梯度下降(Mini - batch SGD)
- 用小批量样本来近似全部。
- 将样本分为 m 个 mini - batch,每个 mini - batch 包含 n 个样本。
4. 动量(Momentum)在 SGD 中的应用
- 在随机梯度的学习算法中,每一步的步幅固定;而在动量学习算法中