改善深层神经网络：超参数调试，正则化以及优化

最新推荐文章于 2022-07-18 22:38:30 发布

mrcoderrev

最新推荐文章于 2022-07-18 22:38:30 发布

阅读量240

点赞数

本文链接：https://blog.youkuaiyun.com/yjf3151731373/article/details/102504748

版权

本文介绍了深度学习中优化算法的重要性，重点讲解了Mini-batch梯度下降及其优缺点，强调了适中的Mini-batch大小对于优化效果的影响。此外，还探讨了指数加权平均数在计算上的优势以及偏差修正的必要性，并详细解释了动量梯度下降法如何加速学习过程，最后给出了一个使用SGD优化器的例子。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第二周优化算法

2.1 Mini-batch 梯度下降

（1）将训练集分割成小的子集训练，称为Mini-batch（batch 梯度下降就是梯度下降），不用等整个训练集遍历完就可以展开后续的工作。

2.2 理解mini-batch 梯度下降

（1）每次迭代走向朝下但可能会有更多的噪声。
（2） mini-batch大小为N，即batch 梯度下降，单次迭代耗时太长（和mini-batch梯度下降的总耗时相比？）
（3）mini-batch大小为1，即随机梯度下降法，失去了向量化的优势，大部分时间朝着最小值靠近，也可能远离最小值，平均时间来看他接近最小值，但永远不会收敛，在最小值附近波动，但不会停留在最小值。
（分母为1，值会不断变动）
（4）实际上位于中间位置的mini-batch大小效果最好。