Deep learning II - II Optimization algorithms - Mini-batch gradient descent

最新推荐文章于 2021-07-08 12:03:22 发布

dqhl1990

最新推荐文章于 2021-07-08 12:03:22 发布

阅读量363

点赞数

分类专栏：深度学习算法 deep learning 文章标签： mini-batch 梯度下降

算法同时被 3 个专栏收录

34 篇文章

订阅专栏

深度学习

29 篇文章

订阅专栏

deep learning

29 篇文章

订阅专栏

本文探讨了在大规模数据集上使用Mini-Batch梯度下降进行机器学习模型训练的有效性和效率。对比了批量梯度下降和随机梯度下降，Mini-Batch方法既利用了向量化的优势，又避免了长时间迭代的问题，特别适用于数据量巨大的场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Mini-batch gradient descent

这里写图片描述

1. 用batch gradient descent时，当数据量巨大时，向量化的实现同样很慢，并且需要处理全部数据后，gradient才会得到更新
2. 使用mini-batch gradient descent来训练时，每一个mini-batch都能时gradient得到更新（但不一定都使 ${\cal L}$ 下降）
这里写图片描述
3. mini-batch的大小如果是1，则为stochastic gradient descent，其在训练时，向量化的优势一点也没用上，收敛路径非常曲折，并不会真正收敛到某一点。

4. 参考stochastic和batch gradient descent两个极端，mini-batch既用到了vectorizing的加速，又避免了每次迭代需要很长时间的问题，因此是最快的方法。
这里写图片描述
5. m≤2000，用batch gradient descent；否则，使用mini-batch gradient descent，size可以选取 $2^6(64),2^7(128),2^8(256),2^9(512)$