文献阅读:StopWasting My Time! Saving Days of ImageNet and BERT Training with LatestWeight Averaging
文章介绍了一种名为LAWA的方法,通过在训练过程中对多个checkpoint进行参数平均,显著提高模型收敛速度。实验证明在ResNet和RoBERTa模型上效果良好,且滑动窗口大小影响效果但非越大数据越好。
文章介绍了一种名为LAWA的方法,通过在训练过程中对多个checkpoint进行参数平均,显著提高模型收敛速度。实验证明在ResNet和RoBERTa模型上效果良好,且滑动窗口大小影响效果但非越大数据越好。

被折叠的 条评论
为什么被折叠?