论文：accurate ,large minibatch SGD：Training ImageNet in 1 Hour

最新推荐文章于 2021-10-17 21:24:50 发布

转载最新推荐文章于 2021-10-17 21:24:50 发布 · 366 阅读

文章标签：

#机器学习论文解读

本文解读机器学习论文，探讨分布式学习相关内容。介绍了大批次学习率的线性缩放规则，能在大范围批次大小中保持效果；提及热身策略，包括恒定热身和渐进热身；还分析了分布式SGD的微妙之处与陷阱，以及多GPU并行运算的通信方式等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. learning rates for large minibatches：

2. warmup

3 Subtleties and Pitfalls of Distributed SGD

4. Main Results and Analysis

https://blog.youkuaiyun.com/xxiaozr/article/details/80346381

https://www.jianshu.com/p/738ff3628543

总结：

1. learning rates for large minibatches：

large minibatch 在分布式学习中可以利用数据并行性使用多个 work 工作，并且不会减少每个 work 的工作量也不会牺牲模型的精度。作者发现，下面的learning rate scaling rule能够适合于很大范围的batch size。

Linear Scaling Rule：当minibatch size乘以一个数，同样learning rate也乘以这个数。

所有其他超参数保持不变，这个 rule 在 broad range of minibatch size 里都很有效果，其他的 hyper-parameters（weight decay 等）都保持不变。
我们比较了 k minibatch ,每一个batch size 为 n ,学习率为 η 和一个 minibatch ,size 为 kn，学习率为

2. warmup

Constant warmup：一种热身的策略是使用一个小的定值作为初始的学习率，训练几个回合。这种策略对于物体检测，分割，fine-tune等问题在有些时候效果较好，但是当较大也就是batch较大的时候，就不是那么有效了，尤其在热身结束的时候会出现error的峰值。
gradual warmup：为了克服constant warmup的不足，作者使用了gradual warmup，就是一点一点地将学习率从小，增大。并且在增大后，回复到原始的learning rate schedule。

Gradual warmup:逐渐将学习率从小到大增大，可以避免学习率的突然增大，保证训练初期的健康收敛。在 kn 的minibatch size 下，一开始使用 η 学习率，然后在 5 epoch 后逐渐增大至，warmup 后，回到正常的 learning rate schedule.