1、一开始先设定一个很小的学习率,随着batch step 变大,当损失函数不再下降,而是开始波动的时候,拐点处的学习率设置为初始学习率。
2、设定完初始学习率以后,先训练一段时间,到一定epoch后,损失开始不再下降而是波动,此时开始衰减学习率。
1、一开始先设定一个很小的学习率,随着batch step 变大,当损失函数不再下降,而是开始波动的时候,拐点处的学习率设置为初始学习率。
2、设定完初始学习率以后,先训练一段时间,到一定epoch后,损失开始不再下降而是波动,此时开始衰减学习率。