一般来说,我们batch size 大一些,则learning rate也要大一些。且有一个数学关系,当我们改变batch_size的时候,可能遵循这样的规律:
newlearningrate = oldlearningrate × newbatchsize oldbatchsize {\text{newlearningrate}}={\text{oldlearningrate}} \times {\sqrt{\frac{ {\text{newbatchsize}}}{ {\text{oldbatchsize}}}}} newlearningrate=oldlearningrate×