【YOLO 系列】YOLO详细解读（1）：You Only Look Once: Unified, Real-Time Object Detection论文翻译+学习心得

原创已于 2024-10-16 12:03:05 修改 · 1.1k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#YOLO #计算机视觉 #神经网络 #深度学习

于 2024-10-16 11:13:36 首次发布

部署运行你感兴趣的模型镜像

You Only Look Once: Unified, Real-Time Object Detection

简介

YOLOV1，是以 Joseph Redmon 为首的大佬们于 2015 年提出的一种新的目标检测算法。它与之前的目标检测算法如 R-CNN 等不同之处在于，R-CNN 等目标检测算法是两阶段算法，步骤为先在图片上生成候选框，然后利用分类器对这些候选框进行逐一的判断；而 YOLOv1 是一阶段算法，是端到端的算法，它把目标检测问题看作回归问题，将图片输入单一的神经网络，然后就输出得到了图片的物体边界框，即 bounding box 以及分类概率等信息。

论文链接：[1506.02640] You Only Look Once: Unified, Real-Time Object Detection (arxiv.org)

项目地址：YOLO: Real-Time Object Detection (pjreddie.com)

Github 源码地址：mirrors / alexeyab / darknet · GitCode

Abstract—摘要

翻译

我们提出的 YOLO 是一种新的目标检测方法。以前的目标检测方法通过重新利用分类器来执行检测。与先前的方案不同，我们将目标检测看作回归问题从空间上定位边界框（bounding box）并预测该框的类别概率。我们使用单个神经网络，在一次评估中直接从完整图像上预测边界框和类别概率。由于整个检测流程仅用一个网络，所以可以直接对检测性能进行端到端的优化。

我们的统一架构速度极快。我们的基本 YOLO 模型以 45 fps（帧 / 秒）的速度实时处理图像。该网络的一个较小版本——Fast YOLO，以 155 fps 这样惊人的速度运行，同时仍然达到其他实时检测器的两倍。与最先进的（state-of-the-art，SOTA）检测系统相比，YOLO 虽然产生了较多的定位误差，但它几乎不会发生把背景预测为目标这样的假阳性（False Positive）的错误。最后，YOLO 能学习到泛化性很强的目标表征。当从自然图像学到的模型用于其它领域如艺术画作时，它的表现都优于包括 DPM 和 R-CNN 在内的其它检测方法。

拓展

RCNN ：

（1）通过 region proposal 产生大量的可能包含待检测物体的 potential bounding box

（2）再用分类器去判断每个 bounding box 里是否包含有物体，以及物体所属类别的 probability 或者 confidence

（3）最后回归预测

YOLO ：

本文将检测变为一个 regression problem（回归问题），YOLO 从输入的图像，仅仅经过一个神经网络，直接得到一些 bounding box 以及每个 bounding box 所属类别的概率。

因为整个的检测过程仅仅有一个网络，所以它可以直接进行 end-to-end 的优化。

end-to-end：

端到端，指的是输入原始数据，输出的是最后结果，原来输入端不是直接的原始数据，而是在原始数据中提取的特征。通过缩减人工预处理和后续处理，尽可能使模型从原始输入到最终输出，给模型更多可以根据数据自动调节的空间，增加模型的整体契合度。在 CV 中具体表现是，神经网络的输入为原始图片，神经网络的输出为（可以直接控制机器的）控制指令。

一、Introduction—前言

翻译

人们只需瞄一眼图像，立即知道图像中的物体是什么，它们在哪里以及它们如何相互作用。人类的视觉系统是快速和准确的，使得我们在无意中就能够执行复杂的任务，如驾驶。快速且准确的目标检测算法可以让计算机在没有专门传感器的情况下驾驶汽车，使辅助设备能够向人类用户传达实时的场景信息，并解锁通用、响应性的机器人系统的潜能。

目前的检测系统通过重用分类器来执行检测。为了检测目标，这些系统为该目标提供一个分类器，在测试图像的不同的位置和不同的尺度上对其进行评估。像 deformable parts models（DPM，可变形部分模型）这样的系统使用滑动窗口方法，其分类器在整个图像上均匀间隔的位置上运行 [10]。

最近的方法，如 R-CNN 使用 region proposal（区域候选）策略，首先在图像中生成潜在的边界框（bounding box），然后在这些框上运行分类器。在分类之后，执行用于细化边界框的后处理，消除重复的检测，并根据场景中的其它目标为边界框重新打分 [13]。这些复杂的流程是很慢，很难优化的，因为每个独立的部分都必须单独进行训练。

**我们将目标检测看作是一个单一的回归问题，直接从图像像素得到边界框坐标和类别概率。**使用我们的系统——You Only Look Once（YOLO），便能得到图像上的物体是什么和物体的具体位置。

YOLO 非常简单（见图 1），它仅用单个卷积网络就能同时预测多个边界框和它们的类别概率。YOLO 在整个图像上训练，并能直接优化检测性能。与传统的目标检测方法相比，这种统一的模型下面所列的一些优点

第一，YOLO 速度非常快。由于我们将检测视为回归问题，所以我们不需要复杂的流程。测试时，我们在一张新图像上简单的运行我们的神经网络来预测检测结果。在 Titan X GPU 上不做批处理的情况下，YOLO 的基础版本以每秒 45 帧的速度运行，而快速版本运行速度超过 150fps。这意味着我们可以在不到 25 毫秒的延迟内实时处理流媒体视频。此外，YOLO 实现了其它实时系统两倍以上的平均精度。关于我们的系统在网络摄像头上实时运行的演示，请参阅我们的项目网页：YOLO: Real-Time Object Detection。

第二，YOLO 是在整个图像上进行推断的。与基于滑动窗口和候选框的技术不同，YOLO 在训练期间和测试时都会顾及到整个图像，所以它隐式地包含了关于类的上下文信息以及它们的外观。Fast R-CNN 是一种很好的检测方法 [14]，但由于它看不到更大的上下文，会将背景块误检为目标。与 Fast R-CNN 相比，YOLO 的背景误检数量少了一半。

第三，YOLO 能学习到目标的泛化表征（generalizable representations of objects）。把在自然图像上进行训练的模型，用在艺术图像进行测试时，YOLO 大幅优于 DPM 和 R-CNN 等顶级的检测方法。由于 YOLO 具有高度泛化能力，因此在应用于新领域或碰到意外的输入时不太可能出故障。

YOLO 在精度上仍然落后于目前最先进的检测系统。虽然它可以快速识别图像中的目标，但它在定位某些物体尤其是小的物体上精度不高。

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎