以下内容来自博客理解!
1.参数更新
将 5000 个子集都计算完时,就是进行了一个 epoch 处理 ,一个 epoch 意思是遍历整个数据集,即 5000 个子数据集一次,也就是做了 5000 个梯度下降,
如果需要做多次遍历,就需要对 epoch 进行循环。当数据集很大的时候,这个方法是经常被使用的。
2.如何选择 mini batch 的参数 batch size 呢?
如果训练集较小,一般 小于2000 的,就直接使用 Batch gradient descent 。
一般 Mini Batch gradient descent 的大小在 64 到 512 之间,选择 2 的 n 次幂会运行得相对快一些。
注意这个值设为 2 的 n 次幂,是为了符合cpu gpu的内存要求,如果不符合的话,不管用什么算法表现都会很糟糕。