- 学习率与优化器策略
- 权重初始化
- 随机初始化
- 用训练好的模型(通常基于 ImageNet 数据集)进行权重初始化
- 学习率策略
- 退火 Annealing
- 升温 Warmup
- 经验性结论:针对同一个训练任务,当 batch size 扩大为原来的 𝑘 倍时,学习率也应对应扩大 𝑘 倍
- 自适应梯度算法
- Adagrad
- Adam / AdamW
- 正则化与权重衰减 Weight Decay
- 早停 Early Stopping
- 模型权重平均 EMA
- 模型权重平均 Stochastic Weight Averaging
- 权重初始化
- 模型相关策略
- 丢弃层 Dropout
- 随机深度 Stochastic Depth