YOLOV3论文阅读（学习笔记）

原创

已于 2022-06-06 23:42:48 修改 · 7.5k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#python

于 2022-03-20 16:49:07 首次发布

本文详细解读了YOLOv3的改进点，包括网络结构升级、多尺度预测、特征提取优化和训练策略。对比RetinaNet，Yolov3在低IOU阈值下表现出色，但在高阈值时性能下滑。重点介绍了边框预测、类别预测和特征提取的变化，以及未成功尝试的技术。

cv小白的yolov3学习笔记总结

论文下载地址：YOLOv3: An Incremental Improvement
yolov网址：https://pjreddie.com/darknet/yolo/

yolov3是yolov系列的第三个版本，yolov1和yolov2分别发表在2016和2017年的CVPR上。yolo系列算法是基于深度学习和卷积神经网络的单阶段通用目标检测算法，把目标检测问题转化为回归问题，不需要经过提取候选框的冗余问题。

一、摘要（Abstract）部分原文：

yolov3网络体积比yolov2网络更大，更深，但是准确度更高。在320×320的输入图像尺寸下，yolov3能够达到28.2的mAP，运算一张图片，前项推断需要22ms，和SSD一样准确，但是比SSD快三倍。yolov3在以0.5为IOU阈值时的mAP是比较好的。在Titan X环境下，yolov3的检测精度为57.9AP50，用时51ms；而RetinaNet的精度只有57.5AP500，但却需要198ms，yolov3比RetinaNet快3.8倍。

摘要部分解析：

mAP：Mean Average Precision ，即均值平均精度。作为 object dection 中衡量检测精度的指标。

如论文中的图3所示，作者将yolov3折线画在了第二象限，以表明在相同GPU条件下，以0.5为IOU阈值时yolov3比RetinaNet效果要好
横轴是运算时间，越靠左越快；
纵轴是以0.5为IOU阈值时的mAP，折线在图中越靠上则越准确

下图Figure3表明了速度和精度的权衡，速度就是运算时间，精度就是以0.5为IOU阈值时的mAP
蓝色折线是以RetinaNet-50为骨干网络的RetinaNet，橙色折线是以RetinaNet-101为骨干网络的RetinaNet
论文图3
图表右下方的YOLOv3-320、YOLOv3-416、YOLOv3-608指的是输入图像的尺寸，yolov3和yolov2一样是全卷积网络，因此可以输入任意大小的图像，但是这些图像都必须是32倍数的（320,416,608都是32的倍数）。如果权重一样，不同大小的输入图像会输出不同的结果。

下面再来看论文中的Figure1，这张图是yolov3在以0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95为IOU阈值时，分别算出的mAP求平均值。
论文图1
我们可以看到，在相同GPU情况下，与上面图3以0.5为IOU阈值时相比，Figure1中yolov3精度虽然有所下降，但是仍然在RetinaNet左上方，还是比Re