深度学习入门笔记手稿（九）mini-batch梯度下降

最新推荐文章于 2021-01-26 21:19:55 发布

原创最新推荐文章于 2021-01-26 21:19:55 发布 · 619 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

深度学习入门笔记手稿同时被 2 个专栏收录

12 篇文章

订阅专栏

深度学习入门手稿笔记系列

12 篇文章

订阅专栏

在深度学习中，mini-batch梯度下降通过将数据集分割为多个小批量，加速了算法的训练过程。这种方法在处理大规模数据集时尤其有效，能够在每次迭代中进行多次梯度下降更新，提高训练效率。

深度学习入门笔记手稿（九）mini-batch梯度下降

- mini-batch梯度下降
- 特性

mini-batch梯度下降

数据特别大时在，在全部处理完全部数据之前，先让梯度下降处理一部分，算法速度会加快。把训练集分割为小一点的子训练集，这些子集取名为mini batch
#一代只是一次遍历训练集
例子 500万数据
X=[x(1),x(2),…x(1000)] 【x(1001),…x(2000)】…[…x(m)]
X=x{1},x{2}…x{5000}
Y=[y(1),y(2)…y(1000)]…
Y=y{1},y{2}…y{5000}

for t=1…5000
forward prop on x{t}
z[1]=w[1]x(t)+b(1)
A[1]=g【1】(z(1))
…
z[l]=w[l]x(t)+b(l)
A[l]=g【l】(z(l))
cost j
backprop
w[l]=w[l]-adw(t) b[l]=b[l]-adb[t]
使用batch梯度下降一次遍历只能做一个梯度下降，使用mini batch一次遍历能做5000个梯度下降。
在这里插入图片描述

特性

mini batch和batch的损失函数和迭代次数关系图如下
在这里插入图片描述
if mini batch size=m :batch gradient descent (x{1},y{1})=(X,Y)
if mini batch size=1: stochastic gradient descent(随机梯度下降)

小于2000个样本可直接使用batch梯度下降法。

一般的mini batch大小为64-512 mini batch为2的次方代码运行速度会快一些

x{t},y{t}要符合cpu/Gpu内存，否则算法表现急转直下

mini batch 大小是一个重要变量，需要快速尝试。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。