YOLO V4论文解读
- 一、YOLOV3回顾
- 二、YOLOV4中
- 三、Bag of freebies
- 四、Bag of specials
- 五、Selection of architecture (网络结构的选择)
- 六、Additional improvements
- 七、细节
-
- 1、 Mosaic data augmentation(马赛克数据增强)
- 2、 DropBlock regularization
- 3、 Class label smoothing
- 4、 CIou-Loss
- 5、 DIou-soft NMS
- 6、 CmBN
- 7、 Self-Adversarial Training(自对抗训练)
- 8、 Elminate grid sensitivity(网格消除敏感)
- 9、 Cosine annealing scheduler (模拟余弦退火)
- 10、 Using multiple anchors for a single ground truth
- 11、 Random training shapes (随机多尺度的训练)
- 12、 Mish activation
- 13、 CSP
- 14、 SPP
- 15、 SAM-block
- 16、 PAN
一、YOLOV3回顾
Backbone: darknet53
Anchors boxes
Batch normalization
Multi-scale
取消了pooling层,改用卷积核步长进行上采样
Logistics 代替了 softmax
二、YOLOV4中
作者将很多的新方法融合到一起,具体包括:
Weighted-Residual-Connections
Cross-Stage-Partial-connections
Cross mini- Batch Normalization
Self-adversrial-training
Mish activation
Mosaic data augmentation
DropBlock regularization
CloU loss
AP:代表的是精度
FPS:代表的是检测速度
YOLOV4的精度比YOLOV3提高了很多
Input:图像或者是经过处理的图像
BackBone:特征提取网络
Neek:FPN(yolov3)、PANet(yolov4)
三、Bag of freebies
改变培训策略,或者只会增加培训成本的方法,对测试不影响
数据扩充:
1、光度畸变:调整图像的亮度、对比度、色调、饱和度和噪声
2、几何畸变:加入随机缩放、剪切、翻转和反旋转
模拟对象遮挡:
1、 random erase, CutOut :可以随机的选择图像中的矩形区域,并且填充一个随机的或者是互补的零值
2、 hide-and-seek、grid mask:随机的或者是均匀的选择图像中的多个矩形区域,并将其全部替换成0
feature map: (在特征图上做增强)
DropOut/DropConnect和DropBlock
结合多幅图像进行数据扩充:
MixUP、 CutMix Style Transfer GAN
CutMix (Mosaic data augmentation)
解决类别不平衡:
hard negative example mining (只适用两阶段)
gnline hard example mining (只适用两阶段)
focal loss
label smoothing
bbox:
1、 loU_ loss
2、 GloU_ loss
3、DIoU_ loss
4、CIoU_ loss(yolov4采用的)
Yolov4-use:
1、CutMix and Mosaic data augmentation.
2、DropBlock regularization.
3、Class label smoothing
4、CloU-loss.
5、CmBN
6、Self-Adversarial Training
7、Eliminate grid sensitivity
8、Using multiple anchors for a single ground truth
9、Cosine annealing scheduler
10、Optimal hyperparameters(通过遗传算法找到最优的参数)
11、Random training shapes。
四、Bag of specials
只会增加少量推理成本单却能显著提高对象检测精度的plugin moduled 和 post-processing methods
1、 enhance receptive field(扩充接受阈): SPP, ASPP, RFB
2、 attention module:
1、 Squeeze-and-Excitation (SE):可以改善resnet50在分类任务上提高1%精度,但是会增加GPU推理时间10%。
2、 Spatial Attention Module (SAM):可以改善resnet50在分类任务上提高0.5%精度,并且不增加GPU推理时间。(yolov4采用)