1. 简介:
从2016年论文《YOLO9000:Better, Faster, Stronger》翻译总结的。物体实时检测,可以检测9000多种物体。
介绍了YOLOv2、YOLO9000。YOLOv2在YOLO基础上进行了改进。YOLO9000联合优化detection和classification,可以检测9000种物体分类,使用了wordtree 来组合不同来源的数据,比如ImageNet和COCO。
文中主要是和fast r-cnn 、SSD对比。YOLO是单步检测,在准确率和速度方面权衡。
2. Better

YOLO有两个缺点:
(1)定位不准确
(2)和基于region proposal的方法相比召回率较低。
如上图,YOLOv2从如下方面进行了提升:
- batch normalization、
- high resolution classifier(提高输入图像大小)、
- anchor box(认为人工的,没有采用,采用的dimension cluster)
- dimension cluster:k-means cluster选取anchor boxes.
k-means中的距离衡量公式用的IOU:d(box,centroid) = 1 − IOU(box,centroid) - direct location prediction:与YOLO相同,还是预测相对于网格单元的位置坐标。


- 细粒度(fine-grained) features:采用类似ResNet的思想,添加一个passthrough 层连接高分辨率特征和低分辨率特征。
- 多尺度训练(multi-scale):最小是320320,最大是608608,
实验结果如下:主要是和fast r-cnn、SSD对比。

3. Faster
没有采用VGG-16,而使用参数更少的Darknet-19.

速度对比如下:

4. Stronger
主要是利用wordtree 结合detection和classification,同时利用COCO和imageNet数据,可以识别9000种物体。

Wordtree使用multiple softmax操作,如下所示。


本文介绍了YOLOv2及YOLO9000的改进之处,包括解决定位不准确的问题、提高召回率,并通过batch normalization、高分辨率分类器等手段提升了检测性能。同时,文章详细解释了如何使用wordtree结合COCO和ImageNet数据集进行9000种物体分类。
3612

被折叠的 条评论
为什么被折叠?



