YOLOv2 与 YOLOv3

最新推荐文章于 2025-03-20 20:31:50 发布

古凌千秋

最新推荐文章于 2025-03-20 20:31:50 发布

阅读量734

点赞数 17

文章标签： YOLO

本文链接：https://blog.youkuaiyun.com/2402_85799538/article/details/143051442

版权

在 YOLO 出现之前，许多物体检测算法都是基于区域建议（region proposal）的方法，如 RCNN、Fast RCNN 和 Faster RCNN。这些方法通过先生成大量的候选框，再对每个候选框进行分类，尽管精度较高，但计算复杂度较大，难以实现实时性。

YOLO 的出现改变了这种局面，它通过将物体检测问题转化为一个回归问题，直接预测边界框和类别。YOLO 的创新之处在于它将整个图像作为输入，一次性输出所有物体的类别和位置，不需要额外的候选框生成步骤，大大提高了检测速度。

YOLOv1 是 Joseph Redmon 和 Ali Farhadi 于 2016 年提出的，但 YOLOv1 存在一些精度方面的问题，特别是在小物体的检测上表现较差。为了解决这些问题，YOLOv2（也称为 YOLO9000）在 2017 年提出。

YOLOv2 相较于 YOLOv1 主要有以下改进：

改进的网络结构：YOLOv2 使用了更深的 Darknet-19 作为骨干网络，它结合了残差网络的思想，使得网络能更有效地提取图像特征。

批量归一化：通过在每一层卷积层后添加批量归一化，YOLOv2 提高了收敛速度，并减少了模型对数据初始化的敏感性。

多尺度训练：YOLOv2 引入了多尺度训练的机制，即在训练过程中，输入图片的尺寸会在一定范围内随机变化。这使得模型在不同分辨率下都能表现良好。

锚框：YOLOv2 通过引入锚框（anchor boxes）的机制，改进了对不同尺寸物体的检测能力，尤其是在小物体检测上有了显著提升。

YOLOv2 的另一大亮点是引入了 YOLO9000，结合了分类和检测数据，通过层级结构能够在 9000 类物体上进行检测。

2018 年，Joseph Redmon 和 Ali Farhadi 再次推出了 YOLOv3。YOLOv3 在 YOLOv2 的基础上做了进一步改进，以应对更复杂的场景。

YOLOv3 的主要改进点包括：

更深的网络结构：YOLOv3 使用了 Darknet-53 作为骨干网络。Darknet-53 是一个更深的卷积神经网络，结合了残差网络的特点，使得它在提取图像特征时更加高效，同时计算开销较低。

多尺度预测：YOLOv3 引入了多尺度特征预测，即在不同的尺度上进行物体检测。网络在输出层的三个不同尺度进行预测，这大大增强了对小物体和大物体的检测能力。

Focal Loss 的思想：虽然 YOLOv3 并没有完全使用 Focal Loss，但它在分类损失中采用了一个类似于 Focal Loss 的策略，来减少对简单样本的过度关注，使模型更关注困难样本。

Sigmoid 分类器：YOLOv3 不再使用 softmax 分类器，而是采用了独立的 Sigmoid 分类器进行多标签分类，使得模型可以预测一个物体属于多个类别的情况。

通过这些改进，YOLOv3 在保持实时性的基础上进一步提升了检测精度，特别是对小物体的检测效果显著提高。

训练 YOLO 模型需要大量标注好的数据集，比如 COCO 数据集、PASCAL VOC 数据集等。YOLOv2 和 YOLOv3 的训练过程主要包括以下几个步骤：

数据准备：将数据集中的每个图像标注为类别和边界框坐标，并生成对应的标签文件。
数据增强：在训练过程中进行数据增强，包括随机裁剪、缩放、翻转等操作，以增强模型的泛化能力。
损失函数：
- YOLO 使用了复合损失函数，包括坐标损失、尺寸损失、置信度损失和类别损失。
- 坐标损失：预测的边界框与真实边界框的距离。
- 置信度损失：预测框中是否存在物体的概率。
- 类别损失：预测物体类别与真实类别之间的交叉熵损失。
优化器：使用 Adam 或 SGD 优化器来更新网络权重，并且通过学习率调度器来动态调整学习率。
多尺度训练：在 YOLOv2 和 YOLOv3 中，训练时会在不同的输入分辨率上进行，以提升模型在不同尺度下的适应性。