iter_size与 batch_size

本文深入解析了iter与batch在反向传播过程中的作用与联系,阐述了iter_size参数如何影响实际batch size及梯度下降过程,帮助读者理解在GPU资源受限时如何通过调整iter_size来实现更大的batch效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前一直不理解iter 与batch之间有什么关系,偶尔看反向传播的博客时注意到了,恍然大悟

解释如下:

当参数iter_size大于1的时候,比如为4,那么一次迭代会有4次Forward和Backward的过程,这时候loss会进行4次累加,最后做个平均;更重要的是每次方向传播的过程中,对于参数的梯度也会进行累加,包括权值和偏置,最后也会对梯度做个平均

iter_size :
这个参数乘上你的train prototxt中的batch_size是你实际使用的batch size。 相当于读取batchsize*itersize个图像才做一下gradient decent。 这个参数可以规避由于gpu不足而导致的batchsize的限制 因为你可以用多个iteration做到很大的batch 即使单次batch有限

原文:https://blog.youkuaiyun.com/sdlypyzq/article/details/84030312

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值