OpenMMLab 实战营打卡 - 第 2 课

原创已于 2023-02-14 09:33:33 修改 · 222 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

于 2023-02-02 23:16:23 首次发布

文章探讨了学习率对模型训练的影响，推荐了权重初始化方法，特别是预训练模型的使用。还介绍了不同的优化器如Adagrad和AdamW，以及学习率退火和Warmup策略。此外，提到了正则化、权重衰减和早停技术以防止过拟合。模型相关的策略包括丢弃层和随机深度，用于提高模型的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

                    
                    学习率与优化器策略
权重初始化
随机初始化
用训练好的模型（通常基于 ImageNet 数据集）进行权重初始化

学习率策略
退火 Annealing
升温 Warmup
经验性结论：针对同一个训练任务，当 batch size 扩大为原来的 𝑘 倍时，学习率也应对应扩大 𝑘 倍
自适应梯度算法
Adagrad
Adam / AdamW

正则化与权重衰减 Weight Decay
早停 Early Stopping
模型权重平均 EMA
模型权重平均 Stochastic Weight Averaging

模型相关策略
丢弃层 Dropout
随机深度 Stochastic Depth