arxiv18,文章写的很随性, 算是作者的记录性的文章吧。没有太多大的创新,主要是从别的文章里借鉴了几个好的点, 加进去,使YOLOv2的精度进一步提升, 速度下降了一些, 但还可以。YOLOv2的小物体检测问题这里也改善了不少。
几个改进:
1. Darknet-53 取代Darknet-19, 更深,采用残差网络思想。
2. 多尺度检测, 其实YOLOv2采用了passthrough结构来检测细粒度物体, 这里借鉴FPN思想, 在网络三个不同分辨率的feature map进行检测。
3. 9种尺度的先验框。依然是k-means的方法, 为3个不同尺度feature map分配三个框。
4. 对象分类采用logistic不用softmax, 应对相似标签物体检测(如women和person)。
YOLOv2在13*13 feature map上检测, 每个像素5个先验框, 共产生预测个数使:13*13*5;而v3则一共产生:(13*13+26*26+52*52)个预测,超过v2的10倍。
最后v3在coco上的表现也很好, 虽然AP(IOU:0.5-1.0)的表现一般, 但是AP50表现非常好,就是在检测准确度要求不是太高的情况下, v3是很好的选择。它的速度是同精度算法的3-4倍。