caffe中batchsize的选择

最新推荐文章于 2020-12-29 11:06:17 发布

原创最新推荐文章于 2020-12-29 11:06:17 发布 · 2.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#caffe

caffe 专栏收录该内容

2 篇文章

订阅专栏

本文探讨了batch size与学习率之间的关系，并建议当batch size减小时，学习率应相应增加以保持训练效果。此外，还提到batch size设为8的倍数有助于提高GPU并行运算效率。

来自 https://github.com/BVLC/caffe/issues/430：

这里的意思就是batchsize和学习率是相关的，如果batchsize减小了X倍，则理论上学习率应增大sqrt(X)倍（当然这是找到最好的batchsize的情况下的），不过Alex还是用了X倍。后面 https://arxiv.org/abs/1404.5997 这个链接的论文还没看，有时间的可以看一下，好像有专门讲到batchsize的设置的

另外，batchsize最好设置为8的倍数，这样gpu的并行运算效率最高