ConvNext
论文:A ConvNet for the 2020s
地址:https://paperswithcode.com/paper/a-convnet-for-the-2020s
论文阅读
ConvNext指出虽然ViTs在分类任务中表现优异屡次刷新SOTA,但是应用于其他计算机视觉任务比如目标检测和语义分割却存在问题,直到分层Transformers比如Swin Transformer引入了一些卷积玩过的先验知识,才让Transformers能够成为通用的视觉任务主干网络并且在一系列视觉任务中取得不错的精度,然而这种分层方式的有效性却被归功于Transformer的内在优势而非卷积网络固有的归纳偏置。该论文重新对传统卷积网络的设计空间以及其他局限进行测试,逐步将ViTs中的一些Tricks应用到标注的ResNet中,发现了一些能够提升网络性能的关键因素,最终输出的网络命名为ConvNext。
具体地,首先将ResNet50按照ViT的训练方式进行训练,得到一个基准模型,应用如下图所示的一系列调整:

训练技巧
以与DeiT和Swin Transformer相似的训练方式,具体地:Epoch:90->300,使用AdamW优化器,数据增强方式使用MixUp、CutMix、RandAugment、RandomErasing,正则化策略使用随机深度和标签松弛,增强之后的训练策略将R


最低0.47元/天 解锁文章
1223

被折叠的 条评论
为什么被折叠?



