论文地址:https://arxiv.org/abs/1711.05101
知乎上网友的分享:https://www.zhihu.com/question/67335251
中心思想就是让权重衰减与学习率脱钩,感觉在一些开源训练代码中已经是这么做的。
论文阅读:Fixing Weight Decay Regularization in Adam
最新推荐文章于 2025-03-21 10:15:00 发布
论文地址:https://arxiv.org/abs/1711.05101
知乎上网友的分享:https://www.zhihu.com/question/67335251
中心思想就是让权重衰减与学习率脱钩,感觉在一些开源训练代码中已经是这么做的。