YOLO-V2论文学习（超详细）

最新推荐文章于 2025-10-11 02:15:00 发布

原创

最新推荐文章于 2025-10-11 02:15:00 发布 · 1.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #神经网络

文章目录

- YOLO9000:Better, Faster, Stronger

YOLO9000:Better, Faster, Stronger

1.简单介绍

YOLO9000是一款先进实时的目标检测系统，可以检测出超过9000目标种类。基于YOLO-v1的问题，作者采用了很多新奇的方法又借鉴一些之前的工作，提出YOLO-v2，相同的YOLO-v2可以运行在不同尺寸之下，实现一种简单的速度与精度的权衡。同时作者提出了在目标检测数据集和分类数据集联合训练的方式，并取得了很好的效果。我们接下来的文章主要围绕这两个部分展开。

2.设计方案

作者回顾了YOLO-v1的缺点，相对于最先进的检测系统，YOLO的确存在很多不足，与Fast R-CNN的误差分析表明，YOLO存在大量的定位错误。此外，与基于区域提案的方法相比，YOLO的召回率相对较低。因此YOLO-V2的很多工作也聚焦于提升召回率和定位上。

计算机主流的趋势是朝着更大更深的网络发展，更好的性能往往依赖于训练更大的的网络或者同时聚合不同的模型。而YOLO-V2的想法是在获得更精确模型的同时依旧保持很快的速度，与扩大网络相反，YOLO-v2简化网络并使特征更容易去学习。

Batch Normalization

Batch Normalization 在模型收敛方面带来了显著的提升，同时可以去除了对其他形式的正则化形式。通过在YOLO中对所有卷积层进行批量归一化，在mAP上得到了超过2%的提升。批量归一化还有助于规范化模型。通过批量归一化，可以从模型中去除dropout且不会引起过拟合。

High Resolution Classifier

大多数先进的检测方法都采用在ImageNet上预先训练好的分类器。从AlexNet开始，大多数分类器进行的输入图像都小于256×256。原先YOLO是在224×224的尺寸下训练分类器网络，将分辨率提高到448进行检测任务。而对于YOLO-V2，首先在448 * 448分辨率ImageNet 分类网络中fine turn 10个周期，这使得网络有时间调整卷积核，以可以更好地在高分辨率图像下工作，然后再将结果网络进行fine turn去做检测任务。这种方法将最终结果提高了4%的mAP。

Convolutional With Anchor Boxes

YOLO对于边框的预测是采用最后的全连接层直接预测bounding box的坐标，而Faster R-CNN在预测bounding box 的时候采用手工挑选先验框，仅仅使用RPN的卷积层去预测anchor boxes偏移量而不是坐标，这大大简化了问题，也使网络更容易去学习。基于这个思想，作者移除了全连接层使用anchor boxes去预测bounding boxes，也去除一个pooling层来获得更大的输出分辨率，对于输入图片将448 * 448调整到416 * 416。

为什么要这样调整大小呢？作者的回答是YOLO的卷积经过了32倍下采样，我们希望我们特征图是奇数个locations，这样中心网格

就是一个了，这样好处是什么呢？一些是大的物体，往往占据图像的中心，所以最好在中心有一个单独的位置来预测这些物体，而不是四个位置都在附近。416 * 416的输入，32倍下采样就是13 * 13，满足我们这样的设计目的。

继我们前面说的话题，当我们采用anchor boxes的方法时，我们也将类预测机制与空间位置进行了解耦，取而代之的是为每个anchor boxes预测类和对象。遵循YOLO设计，目标预测仍然预测了ground truth与和建议框的IOU；而类预测则预测了该类在有对象的情况下的条件概率。在没有采用anchor boxes的情况下，模型有着69.5的mAP和81%的召回率。使用该方法之后69.2的mAP和88%的召回率。虽然mAP有所下降，但是召回率的提高意味着模型有着更多的改进空间。