《YOLO4》论文精读：YOLOv4给研究人员做了一次非常不错的技术汇总！

在这里插入图片描述

论文内容省流版本阅读这里即可

YOLO4讨论了用于提升卷积神经网络（CNN）性能的不同技术，并且介绍了如何通过组合这些技术来达到最优的结果。但是对这些技术没有做解释，作者是默认读者了解这些后背的技术，所以读完这篇论文，如果不继续往下深究，跟没读过是一个感受

介绍：
- 提到有很多特性被认为可以提高CNN的准确性。
- 实际上需要对这些特性的组合在大规模数据集上进行测试，并对结果进行理论上的解释。
特性分类：
- 有些特性是专门为某些模型或问题设计的，或者仅适用于小规模的数据集。
- 有些特性，比如批量归一化（Batch-Normalization）和残差连接（Residual-connections），则适用于大多数模型、任务和数据集。
通用特性假设：
- 假设有一些通用特性，包括加权残差连接（WRC）、跨阶段部分连接（CSP）、跨Mini-Batch归一化（CmBN）、自我对抗训练（SAT）和Mish激活函数。
应用的特性：
- 使用的新特性包括：WRC、CSP、CmBN、SAT、Mish激活、马赛克数据增强（Mosaic data augmentation）、DropBlock正则化、CIoU损失。
- 这些特性被组合起来以实现最先进的成果。
实验结果：
- 在MS COCO数据集上，通过组合这些特性，获得了43.5%的平均精度（AP）和65.7%的AP50（即当IoU=0.5时的平均精度）。
- 这个模型在Tesla V100 GPU上运行时能够达到约65 FPS的实时速度。
代码资源：
- 有关此工作的源代码可以在https://github.com/AlexeyAB/darknet找到。

下面逐步描述YOLO3的推理流程：

给模型输入一张只有人、狗、自行车三个待检测对象的图像，得到32x32x3+16x16x3+8x8x3=3072+768+192=4032个预测边界框的坐标和边界框的置信度，以及32x32+16x16+8x8=1024+256+64=1344个网格单元格的类别预测分数。
将边界框预测值转变成预测边界框的实际坐标，和所有预测边界框的置信度
通过非极大值抑制（Non-Maximum Suppression, NMS）挑选出三个预测边界框，分别预测人、狗、自行车。非极大值抑制（Non-Maximum Suppression, NMS）是一种常用的技术，用于消除重复的边界框预测。在目标检测任务中，同一物体可能会被多次预测为不同的边界框，NMS的作用就是从这些重叠的边界框中挑选出最有代表性的那个。