YOLOv1 的改进版本--YOLOv2

最新推荐文章于 2025-12-16 21:33:51 发布

原创

最新推荐文章于 2025-12-16 21:33:51 发布 · 1.7k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#YOLO #深度学习 #人工智能

上一篇介绍了YOLO v1,这篇文章介绍一下它升级之后的版本。YOLO v2.它在保持较高检测速度的同时，提高了检测的准确率。

一.网络结构的改进：

使用 Darknet-19：YOLOv2 采用了新的骨干网络 Darknet-19，它包含 19 个卷积层和 5 个最大池化层。与之前的网络结构相比，Darknet-19 的计算量更小，准确率更高，能够在保证检测速度的同时提高模型的性能。Darknet-19 中的大部分卷积层由 3x3 卷积和 1x1 卷积组成，这种结构可以有效地提取图像的特征。

二.训练策略的优化：

高分辨率分类器：在 YOLOv1 中，先使用 224×224 的输入分辨率训练卷积层进行图像分类，再用 448×448 的分辨率训练模型进行目标检测，这种分辨率的切换对模型性能有一定影响。而 YOLOv2 在采用 224×224 的图像进行分类模型预训练后，会再用 448×448 的高分辨率样本对分类模型进行微调（10 个 epoch），使网络特征逐渐适应 448×448 的分辨率，然后再使用 448×448 的检测样本进行训练，缓解了分辨率突然切换造成的影响。

批标准化（Batch Normalization）：在 YOLOv2 的每一个卷积层后都添加了批标准化（BN）层。批标准化有助于解决反向传播过程中梯度消失和梯度爆炸的问题，降低了对一些超参数的敏感性，并且对每一个 batch 分别进行归一化，起到了一定的正则化效果，从而使模型获得更高的收敛速度，最终使平均精度均值（mAP）提高了约 2%。

多尺度训练：由于去掉了全连接层，YOLOv2 可以适应不同尺寸的输入。为了让模型对于不同的输入图片尺寸具有更好的鲁棒性，作者采用了多尺度训练方案。下采样的因子是 32，所以选择的输入图片尺寸被定为 {320, 352,..., 608}，即最小的输入分辨率为 320×320，最大为 608×608。训练时，每 10 个 batch 就随机更换一种尺寸，