OpenMMLab 实战营打卡 - 第 2 课

文章探讨了学习率对模型训练的影响,推荐了权重初始化方法,特别是预训练模型的使用。还介绍了不同的优化器如Adagrad和AdamW,以及学习率退火和Warmup策略。此外,提到了正则化、权重衰减和早停技术以防止过拟合。模型相关的策略包括丢弃层和随机深度,用于提高模型的泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 学习率与优化器策略
    • 权重初始化
      • 随机初始化
      • 用训练好的模型(通常基于 ImageNet 数据集)进行权重初始化
    • 学习率策略
      • 退火 Annealing
      • 升温 Warmup
      • 经验性结论:针对同一个训练任务,当 batch size 扩大为原来的 𝑘 倍时,学习率也应对应扩大 𝑘 倍
      • 自适应梯度算法
        • Adagrad
        • Adam / AdamW
      • 正则化与权重衰减 Weight Decay
      • 早停 Early Stopping
      • 模型权重平均 EMA
      • 模型权重平均 Stochastic Weight Averaging

  • 模型相关策略
    • 丢弃层 Dropout
    • 随机深度 Stochastic Depth
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值