Rich feature hierarchies for accurate object detection and semantic segmentation
用于准确的目标检测和语义分割的丰富特征层次结构
[翻译参考]https://blog.youkuaiyun.com/v1_vivian/article/details/78599229
- 简介
两个关键因素:(1) 将大型卷积神经网络(CNN)应用于自底向上区域推荐,以定位和分割物体;(2)当标签训练数据不足时,先针对辅助任务进行有监督预训练,再进行特定任务的微调,就可以产生明显的性能提升。
主要关注两个问题:使用深度网络定位物体、在小规模的标注数据集上进行大型网络模型的训练
定位问题的解决:
1.将定位问题定义为回归问题,效果不好
2.建一个滑动窗口探测器,主要在一些特定的物体类别上。overfeat采用这种方法。为了获得较高的空间分辨率,这些CNNs都采用了两个卷积层和两个池化层。但这次的网络层次更深,感受野更大,这使得在滑窗模式中做精确定位成为挑战。
3.操纵“对区域进行识别”的模式来解决CNN定位问题,该方法已经成功用于物体检测和语义分割。
训练问题的解决:
对于标签数据太少的情况。传统方法多是采用无监督预训练,再进行有监督调优。本文则是在辅助数据集(ILSVRC)上进行有监督预训练,再在小数据集上针对特定问题进行调优,这是在训练数据稀少的情况下一个非常有效的训练大型卷积神经网络的方法。
测试过程:
测试时,该方法产生了接近2000个类别无关的区域推荐,对每个推荐使用CNN提取了一个固定长度的特征向量,然后借助专门针对特定类别数据的线性SVM对每个区域进行分类。使用简单的技术(仿射图像变换)对每个推荐区域计算出一个固定大小的CNN输入,从而支持各种区域尺寸。该结合了区域推荐和CNNs的方法被称为R-CNN:Regions with CNN features
R-CNN