首先,当minibatch偏小时,产生的noise能够部分避免local minima,所以相比于large minibatch, 我们偏向于使用small minibatch。
我们通常的选择是32~256之间,large minibatch(512+)计算成本高,而small minibatch(16-)训练速度太慢。
首先,当minibatch偏小时,产生的noise能够部分避免local minima,所以相比于large minibatch, 我们偏向于使用small minibatch。
我们通常的选择是32~256之间,large minibatch(512+)计算成本高,而small minibatch(16-)训练速度太慢。