1. 理论背景
在深度学习训练过程中,学习率(Learning Rate, LR)调度对模型的收敛速度和最终性能至关重要。不同的学习率调度策略可以帮助模型在训练早期快速收敛,同时在后期避免震荡或陷入局部最优。
两种常见的学习率调度方法:
- Step LR(阶梯衰减):每个 epoch 按固定倍率衰减学习率,适用于稳定收敛的场景。
- Cosine LR(余弦衰减):学习率呈 余弦曲线 下降,前期较缓慢,后期快速趋近最小值,适用于 fine-tuning。
- Linear Warmup(线性预热):在训练开始时逐步增大学习率,避免因初始学习率过高导致的不稳定性。
通常,Warmup + Step LR / Cosine LR 组合使用,即:
- Warmup 阶段:学习率从较低值逐渐增加到初始学习率(
init_lr
)。 - 正式调度