1 introduction
通过已有的分类数据扩大当前检测系统的范围, 使用目标分类层的分层视图, 将不同的数据集组合在一起.
联合训练算法: 分类与检测相结合训练 , 使用标记好的检测数据实现目标的精确定位,利用分类数据提高其识别范围及稳健性.
代码:
2 Better
Batch Normalization
在YOLO所有卷积层上添加批量标准化, 删除dropout.
High Resolution Classifier
先使用448X448的ImageNet进行10epoch微调, 为了更好地适应高分辨率输入.
Convolutional With Anchor Boxes
移除FC层, 使用锚框预测边界框.
1 移除一个池化层, 为了获得高分辨率特征图
2 输入416X416, 为了获得奇数个位置, 只有一个中心单元
Dimension Clusters(维度聚类)
在训练集边界框上运行k-means, 找到良好的先验(即或者锚中那些框设置什么样最合理).
距离度量为:
d(box, centroid) = 1 - IOU(box, centroid)
用不同k值进行k-means. 回执最接近质心的平均IOU. 最终选择K=5.
Direct location prediction
Fine-Grained Features
通过叠加高分辨率特征层, 有利于小的物体定位. 方法和ResNet类似
直通层将高分辨率特征与低分辨率特征连接起来,将相邻特征叠加到不同的通道中,而不是空间位置上,类似于ResNet中的恒等映射。将26×26×512的特征图变为13×13×2048的特征图,然后就可以与原来的特征连接。
Multi-Scale Training
每隔几次迭代就改变一次网络。每10个批次我们的网络会随机选择一个新的图像尺寸大小.
取值集合为{320,352,…,608}
3 Faster
Darknet19
4 Stronger
混合来自检测和分类数据集的图像. 网络看到标记为检测的图像时,可以根据完整的YOLOv2损失函数进行反向传播。 当它看到分类图像时,只会反向传播分类部分的损失
因为网络softmax预测的每个分支都是相互排斥的, 所以对于合并的数据集, 标签问题的解决方式如下:
分层分类:
WordTree,一个视觉概念的分层模型, 例如terier节点
图片是否是Norfolk terrier