之前两篇文章介绍了two-stage 的目标检测框架,本文开始介绍 one-stage。
YOLO v1
YOLO,解决了目标检测中最大的难题:速度,它为目标检测提供了新的思路。
主要特点:1,快,2,将背景预测为前景的错误率小,3,泛化能力强。
主要思想:
- 将整张图作为网络的输入,直接在输出层回归box的位置和类别。
- 将图像分为S×S个网格,如果某个object的中心落在这个网格中,则这个网格就负责预测这个object。
- 每个网格要预测B个box,坐标+confidence,共5维。confdience计算如下,
- 每个网格预测5维,同时还要预测类别信息(假设有C类),则输出为S×S×(5×B + C)。文中S为7,B取2
- ,VOC数据集的C为20
网络
其他细节 - 改用 leaky ReLU激活函数:修正了数据的分布,保留了负值,是