论文精读之YOLOv1（You Only Look Once:Uniﬁed, Real-Time Object Detection）

原创已于 2023-08-09 00:25:10 修改

· 102 阅读

0 ·

版权

文章标签：

#YOLO #目标检测 #人工智能 #计算机视觉 #深度学习 #图像处理

于 2023-08-09 00:24:59 首次发布

计算机视觉论文精读专栏收录该内容

4 篇文章

订阅专栏

论文地址：

You Only Look Once: Unified, Real-Time Object Detectionarxiv.org/abs/1506.02640编辑https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1506.02640

Abstract

回顾之前的SPPnet、R-CNN系列，这些模型都将目标检测分为两个阶段（回归+分类）的任务，定位（找出目标框）+ 识别（分类）。本文YOLO将目标检测重新定义成一个回归问题

与最先进的目标检测系统相比，YOLO 的定位错误更多，但在背景上预测误报的可能性较小。YOLO 可以学习非常通用的物体特征。

Introduction

过往的R-CNN等方法首先在图像中生成潜在的边界框，然后在这些提议的边界框上运行分类器。分类后，在进行后处理（NMS）用于完善边界框，消除重复检测，并根据场景中的其他物体对边界框重新评分。这些复杂的流水线既缓慢又难以优化，因为每个组件都必须单独训练。即使是与YOLO较早出现的Faster R-CNN，也需要分开训练两个网络（RPN和Fast R-CNN）

YOLO模型将物体检测重构为一个单一的回归问题，直接从图像像素得到边界框坐标和类别概率。

YOLO 速度极快，而且YOLO 的平均精度是其他实时系统的两倍多

与基于滑动窗口和区域建议的技术不同， YOLO 在训练和测试过程中能看到整个图像，因此它能隐含地编码有关类别及其外观的轮廓信息。与Fast R-CNN 相比，YOLO 的背景错误数量不到后者的一半。

YOLO 可学习对象的通用表征。在自然图像上进行训练并在艺术作品上进行测试时，YOLO 的表现远远超过 DPM 和 R-CNN 等顶级检测方法。

在精确度方面，YOLO 仍然落后于最先进的检测系统。虽然它能快速识别图像中的物体，但在精确定位某些物体（尤其是小物体）方面却很吃力。

Uniﬁed Detection

论文将输入图像划分为S × S 网格。在检测时，如果一个物体的中心落在一个网格单元中，则该网格单元负责检测该对象。

每个网格单元预测B边框（B指的是指定的锚框数量）和这些边框的置信度分数。这些置信度分数反映了模型对该方框包含物体的信心，以及模型认为其预测的方框的准确度。置信度分数的定义是：方框中包含目标的概率*目标与真实框之间的IoU。当方框中没有目标，则Pr（Object）=0，否则Pr（Object）=1，此时置信度得分等于目标与真实框之间的IoU。

每个边界框由5个预测值组成：x、y、w、h 和置信度。（x，y）坐标代表相对于每个网格单元边界的边界框中心（而不是相对于整张图像）。宽度和高度是相对于整个图像的预测值。

每个网格单元还预测C个类别的概率，并且，每个网格单元只预测一种类别（假如这个网格里面出现两类物体，只能预测概率值比较大的那种物体）。这是YOLOv1的局限性

因此，模型最后的输出是S × S × (B ∗ 5 + C)的张量，其中S × S是网格，B是锚框数量，5指的是xywh和score，C指的是类别数量。这里的类别与R-CNN系列不一样，不包含背景类别。实际上模型输出的score已经可以把背景类别给排除掉了（设置阈值排除低置信度的框），所以不需要预测背景类别

模型在测试阶段，会将每个方框（不是网格）的score与该方框的类别概率（就是方框所在网格的类别概率）相乘，得到：方框的所属类别概率*IoU，这个分数既表示该类出现在方框中的概率，也表示预测方框与对象的匹配程度。

网络有 24 个卷积层和2个全连接层，并在其中交替使用的 1 × 1 卷积层缩小了前几层的特征空间。由于网络是从ImageNet预训练得到的，ImageNet图像大小是22*224，因此网络还需要进行resize

训练过程中将图像的宽度和高度相对边界框的宽度和高度进行归一化处理，使它们介于 0 和 1 之间。并将边界框的x坐标和y坐标参数化为网格单元位置的偏移量，使它们也介于 0 和 1 之间。

网络中最后一层使用线性激活函数，所有其他层都使用leaky ReLU

在损失函数设置方面，将目标定位误差与分类误差同等加权，这可能并不理想，为了解决这个问题，论文增加了边界框坐标预测的损失，减少了不包含物体的边界框的可信度预测损失。

具体来说，模型的损失函数分为四个部分，分别是xy坐标偏移损失、长宽比例损失、置信度损失、类别损失。其中，当方框内含有物体时，置信度损失采用上图中黑色框，当方框内不含有物体时，采用蓝色框的损失，这两者的分别是 $\lambda_{noobj}$ =0.5，设置这个的目的是当方框不含物体（负样本），降低置信度的损失，从而加大坐标偏移损失。另外，前三类损失都是基于所有的方框（S × S × B），最后的类别损失只是针对网格（因为每个网格都只预测一个类别）