
- YOLOv3: An Incremental Improvement论文地址
- PaperwithCode在目标检测的排名
- Github仓库地址,100Kstar
- 《YOLO1》论文精读:第一次实现端到端的目标检测
- 《YOLO2》论文精读:7项措施和联合训练让YOLO1更好、更快、更强大
- YOLO1论文最新由Facebook AI发表于2016年5月,截止现在2024年10月,引用数是52854次。
- YOLO2由华盛顿大学研究机构于2016年12月发布,截止2024年10月,引用数是23157次。
- YOLO3由华盛顿大学研究机构于2018年4月发布,截止2024年10月,引用数是30304次。
文章目录
论文核心内容(省流版本阅读这里即可)
YOLOv3(You Only Look Once version 3)是YOLO系列目标检测算法的第三个版本,它在YOLOv2的基础上进行了改进,旨在提供更快更准确的目标检测性能。
-
背景与动机:
- YOLOv3的开发基于YOLOv1和YOLOv2的成功经验,旨在保持实时检测速度的同时提高检测精度。
- YOLO系列算法的主要特点是将整个检测过程视为一个回归问题,直接从输入图像到边界框坐标和类别概率进行预测,而不是使用区域提议(region proposal)的方式。
-
网络架构改进:
- 使用Darknet-53作为基础特征提取器,它比之前版本使用的Darknet-19更深,并且在保持实时性的同时提供了更好的特征表达能力。
- 通过多尺度预测来提升小物体的检测能力,即在不同的特征图层级上进行检测,这样可以捕捉到不同大小的物体。
-
训练策略:
- 引入了标签平滑(label smoothing)来减少过拟合的风险。
- 使用了数据增强技术,如图像翻转、颜色抖动等,以增加模型的泛化能力。
- 还使用了批量归一化(batch normalization),这有助于加速收敛并改善训练稳定性。
-
损失函数调整:
- YOLOv3采用了改进的损失函数,更加重视边界框的位置准确性以及置信度分数的准确性。
-
核心贡献:
- 检测精度的提升:通过引入更深的网络结构和多尺度预测机制,YOLOv3在多个基准测试集上取得了显著的性能提升。
- 灵活性与可扩展性:YOLOv3的设计允许容易地进行修改和扩展,以便于研究者根据具体应用需求进行调整。
- 实时性:尽管提高了检测精度,YOLOv3仍然保持了较高的帧率(FPS),使其适用于需要实时处理的应用场景。
总之,YOLOv3通过一系列的技术改进,在保持实时检测速度的同时,大幅提升了检测精度,特别是在小目标检测方面表现突出。这些改进为后续的研究工作奠定了坚实的基础。
复习YOLO1的推理过程
下面逐步描述YOLO1的推理流程:
- 给模型输入一张只有人、狗、自行车三个待检测对象的图像,得到7x7x2=96个预测边界框和7x7x2=96个边界框的置信度,以及7x7=49个网格单元格的类别预测分数。
- 通过非极大值抑制(Non-Maximum Suppression, NMS)挑选出三个预测边界框,分别预测人、狗、自行车。非极大值抑制(Non-Maximum Suppression, NMS)是一种常用的技术,用于消除重复的边界框预测。在目标检测任务中,同一物体可能会被多次预测为不同的边界框,NMS的作用就是从这些重叠的边界框中挑选出最有代表性的那个。
- NMS的工作流程
步骤1 - 排序:首先按照边界框的置信度得分对所有边界框进行降序排序。
步骤2 - 选取最高分:从排序后的列表中选取得分最高的边界框。
步骤3 - 计算IoU:计算得分最高的边界框与其他所有边界框的交并比IOU。
步骤4 - 剔除高IoU:如果某个边界框与已选中的边界框IoU高于设定的阈值,则剔除该边界框。
步骤5 - 迭代:重复步骤2至4,直到没有边界框剩余为止。

最低0.47元/天 解锁文章
4567

被折叠的 条评论
为什么被折叠?



