《YOLO3》论文精读：3项优化和Darknet-53让YOLO3奠定了YOLO系列的基石

原创

已于 2024-10-16 17:18:55 修改 · 1.2k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#YOLO #目标检测 #Paper精读

于 2024-10-16 16:34:51 首次发布

在这里插入图片描述

YOLO1论文最新由Facebook AI发表于2016年5月，截止现在2024年10月，引用数是52854次。
YOLO2由华盛顿大学研究机构于2016年12月发布，截止2024年10月，引用数是23157次。
YOLO3由华盛顿大学研究机构于2018年4月发布，截止2024年10月，引用数是30304次。

论文核心内容（省流版本阅读这里即可）

YOLOv3（You Only Look Once version 3）是YOLO系列目标检测算法的第三个版本，它在YOLOv2的基础上进行了改进，旨在提供更快更准确的目标检测性能。

背景与动机：
- YOLOv3的开发基于YOLOv1和YOLOv2的成功经验，旨在保持实时检测速度的同时提高检测精度。
- YOLO系列算法的主要特点是将整个检测过程视为一个回归问题，直接从输入图像到边界框坐标和类别概率进行预测，而不是使用区域提议（region proposal）的方式。
网络架构改进：
- 使用Darknet-53作为基础特征提取器，它比之前版本使用的Darknet-19更深，并且在保持实时性的同时提供了更好的特征表达能力。
- 通过多尺度预测来提升小物体的检测能力，即在不同的特征图层级上进行检测，这样可以捕捉到不同大小的物体。
训练策略：
- 引入了标签平滑（label smoothing）来减少过拟合的风险。
- 使用了数据增强技术，如图像翻转、颜色抖动等，以增加模型的泛化能力。
- 还使用了批量归一化（batch normalization），这有助于加速收敛并改善训练稳定性。
损失函数调整：
- YOLOv3采用了改进的损失函数，更加重视边界框的位置准确性以及置信度分数的准确性。
核心贡献：
- 检测精度的提升：通过引入更深的网络结构和多尺度预测机制，YOLOv3在多个基准测试集上取得了显著的性能提升。
- 灵活性与可扩展性：YOLOv3的设计允许容易地进行修改和扩展，以便于研究者根据具体应用需求进行调整。
- 实时性：尽管提高了检测精度，YOLOv3仍然保持了较高的帧率（FPS），使其适用于需要实时处理的应用场景。

总之，YOLOv3通过一系列的技术改进，在保持实时检测速度的同时，大幅提升了检测精度，特别是在小目标检测方面表现突出。这些改进为后续的研究工作奠定了坚实的基础。

复习YOLO1的推理过程

下面逐步描述YOLO1的推理流程：

给模型输入一张只有人、狗、自行车三个待检测对象的图像，得到7x7x2=96个预测边界框和7x7x2=96个边界框的置信度，以及7x7=49个网格单元格的类别预测分数。
通过非极大值抑制（Non-Maximum Suppression, NMS）挑选出三个预测边界框，分别预测人、狗、自行车。非极大值抑制（Non-Maximum Suppression, NMS）是一种常用的技术，用于消除重复的边界框预测。在目标检测任务中，同一物体可能会被多次预测为不同的边界框，NMS的作用就是从这些重叠的边界框中挑选出最有代表性的那个。

NMS的工作流程
步骤1 - 排序：首先按照边界框的置信度得分对所有边界框进行降序排序。
步骤2 - 选取最高分：从排序后的列表中选取得分最高的边界框。
步骤3 - 计算IoU：计算得分最高的边界框与其他所有边界框的交并比IOU。
步骤4 - 剔除高IoU：如果某个边界框与已选中的边界框IoU高于设定的阈值，则剔除该边界框。
步骤5 - 迭代：重复步骤2至4，直到没有边界框剩余为止。