Abstract
有大量的特征认为会改进神经网络(CNN)的准确率。有一种需求是在大规模数据集上进行这些特征的组合验证,并且从理论角度评论结果。有些特征是在特定模型、有些为了解决特定问题,或者只是为了小规模数据集;同时有些特征,例如BN与残差链接模块,对于大多数模型、任务与数据集都有效。我们假设这些有效的特征包括带权重的残差连接(WRC)、跨阶段部分连接(CSP),跨最小Batch正则化(CmBN),自对抗训练(SAT)与Mish-activation。我们使用新的特征:WRC、CSP、CmBN、SAT、Mish activation、马赛克数据扩展、CmBN、DropBlock正则化与CIoU损失函数、与他们的一些组合从何得到SOTA的结果:在MS COCO数据集上得到43.5%AP(65.7%),速度Tesla V100 GPU上达到65fps。源码以开源:https://github.com/AlexeyAB/darknet。
1.Introduction
绝大多数基于CNN的目标检测器在推荐系统中大规模应用。例如,通过车辆相机搜索空余车位是通过低精度模型实现的,这里车辆冲突告警是用过快速不精确模型实现的。改进实时目标检测器是的不仅仅可以将模型应用到通用推荐系统,而且还可以用于独立的流程管控与减少人力投入。在GPU上的实时目标检测是的他们可以以可接受的成本大规模应用。大多数精确的神经网络模型都不能达到实时,并且在训练时需要大量的GPU使用小miniBatchSize进行训练。我们通过创造一个可以在GPU实现实时的CNN结构来解决这个问题,而且在训练时也只需要一块卷积GPU。
这件事的主要目标是在产品系统中设计一个快速目标检测模型并进行并行优化,而不是研究低计算容量的理论指标(BFLOP)。我们希望设计的东西可以很容易的被训练与使用。例如,任何使用一个卷积GPU的人都可以训练、测试达到实时、高质量与令人信服的目标检测结果,如图1种展示的YOLOv4的结果。我们的贡献总结如下:
- 我们开发了一种高效且强大的目标检测模型。这个模型是的任何人都可以在1080Ti或者2080TiGPU上训练一种超级快速与精准的目标检测模型。
- 我们在模型训练过程中验证了流行的SOTA技巧集合与特征集合。
- 我们优化了SOTA的方法,是的他们在单GPU训练过程中更加的高效与适合,包括CBN【89】,PAN【49】,SAM【85】等。

2.Related work
2.1.Object detection models
先进的检测器通常由两部分组成,在ImageNet上预训练的骨干网络与一个用于预测目标的类别与bbox的Head。对于那些在GPU平台上运行的检测器,他们的骨干网络可以用VGG【68】,ResNet【26】,ResNeXt【86】,或者DenseNet【30】。对于那些在CPU平台上的检测器,骨干网络可能是SqueezeNet【31】,MobileNet【28,66,27,74】,或者ShuffleNet【97,53】。在Head部分,通常分为两类:单阶段检测器与双阶段检测器。最有代表性的双阶段检测器时R-CNN【19】系列,包括fast R-CNN【18】,faster R-CNN【64】,R-FCN【9】与Libra R-CNN【58】。也可以将两阶段目标检测器作为anchor-free目标检测器,例如RepPoint【87】。作为单阶段目标检测器,最有代表性的事YOLO【61,62,63】,SSD【50】与RetinaNet【45】。近些年来单阶段anchor-free目标检测器研发出来了。这系列检测器时例如CenterNet【13】,CornerNet【37,38】,FCOS【78】。这些年研发的目标检测器通常在骨干网络与Head之间插入一些层,这些层通常用于采集不同阶段的特征图。我们将它称为目标检测器的Neck。通常,Neck是由一些由下到上的方法与一些由上到下的方法组成。有这个机制的网络结构包括特征金字塔网络(FPN)【44】,路径聚合网络(PAN)【49】,BiFPN【77】与NAS-FPN【17】。除了上述的模型,有些研究者将他们的重点放在构建新的骨干网络(DetNet【43】,DetNAS【7】)或者整个新模型(SpineNet【12】,HitDetector【20】)用于目标检测。
总的来说,一个典型的目标检测模型由几个部分组成:
• Input:Image, Patches, Image Pyramid
• Backbones: VGG【16】,ResNet-50【26】,SpineNet【12】,EfficientNet-B0/B7 【75】, CSPResNeXt50【81】,CSPDarknet53【81】
• Neck:
• Additional blocks: SPP【25】,ASPP【5】,RFB【47】,SAM【85】
• Path-aggregation blocks: FPN【44】, PAN【49】,NAS-FPN 【17】,Fully-connected FPN,BiFPN【77】,ASF【48】,SFAM【98】
• Heads:
• Dense Prediction (one-stage):
◦ RPN【64】,SSD【50】,YOLO【61】,RetinaNet【45】(anchor based)
◦ CornerNet【37】,CenterNet【13】,MatrixNet【60】,FCOS【78】(anchor free)
• Sparse Prediction (two-stage):
◦ Faster R-CNN【64】,R-FCN【9】,Mask R-CNN【23】(anchor based)
◦ RepPoints【87】(anchor free)


本文详细介绍了YOLOv4目标检测模型的设计与优化,探讨了数据扩展、Bag of Freebies和Bag of Specials等技术如何提升模型性能。YOLOv4通过CSPDarknet53骨干网络、SPP模块和PANet颈部结构,实现了在MS COCO数据集上的高精度与实时性。同时,文章强调了Mosaic数据增强、自对抗训练和CmBN等方法对模型性能的提升作用。
最低0.47元/天 解锁文章
7770

被折叠的 条评论
为什么被折叠?



