深度学习(batch,mini-batch,其它算法)

本文探讨了深度学习中的批量(batch)与小批量(mini-batch)梯度下降法,解释了它们的区别和优势。介绍了指数加权平均、动量梯度下降法、RMSprop和Adam算法等优化技术,以及学习率衰减的重要性。还提到了在神经网络中局部最优不是主要问题,而平稳段导致的梯度消失是更值得关注的问题。此外,文章还附带了一些常用的数组运算示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 .batch vs mini-batch

2.理解mini-batch

分成几份,,,遍历做回归与反省回归。
若size=m,才相当于batch。
若size=1 ,随机梯度下降法(stochastic gradient descent)每个样本样本都是独立Mini_batch.
随机梯度下降法有很多的 噪声。指错方向。往往不会到达最小值,而是在附近波动.很显然,一个样本求一次梯度,没有用到向量,速度慢.若1 < size < m,学习速率最快。1 实现了向量化。2.不需要等待整个训练集处理完
Vectoration fast总的来说比随机梯度下降 更持续的接近最小值,也不一定在很小的范围内波动,如果出现波动,可以减小学习率
3How to choose size?
1 . small training set (m<=2000):use batch gradient descent
2 . bigger training set:64 to 512.consider computer memory,(2 to nth)
attention: make sure your mini-batch size fits in GPU/CPU memory

3.指数加权平均(exponentially weighted average):

4.理解指数加权平均

5.偏差修正

6.动量梯度下降法(Momentum):

![这里写图片描述](https://img-blog.youkuaiyun.com/20171005135513484?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzQwNTk5ODk=/fo
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值