首先,当minibatch偏小时,产生的noise能够部分避免local minima,所以相比于large minibatch, 我们偏向于使用small minibatch。

我们通常的选择是32~256之间,large minibatch(512+)计算成本高,而small minibatch(16-)训练速度太慢。



首先,当minibatch偏小时,产生的noise能够部分避免local minima,所以相比于large minibatch, 我们偏向于使用small minibatch。

我们通常的选择是32~256之间,large minibatch(512+)计算成本高,而small minibatch(16-)训练速度太慢。



1万+
1583
2万+

被折叠的 条评论
为什么被折叠?