3.1.3 常用的文本检测模型
R-CNN、Fast R-CNN、Faster R-CNN
1)R-CNN(CVPR 2014, TPAMI 2015)
2014年论文《Rich feature hierarchies for accurate object detection and semantic segmentation Tech report》提出R-CNN模型,即Regions with CNN features。这篇论文可以算是将CNN方法应用到目标检测问题上的开山之作。
R-CNN的算法原理:

RCNN算法分成四个步骤:
(1)获取输入图像
(2)提取大约2000个自下而上的候选区域
(3)使用大型卷积神经网络(CNN)计算每个建议的特征
(4)使用特定分类的线性支持向量机(SVM)对每个区域进行分类。
实验结果:
表1显示了VOC 2010数据集上的实验完整结果。实验将R-CNN方法与四个强Baseline进行了比较,其中包括SegDPM,它将DPM检测器与语义分割系统的输出相结合,并使用额外的检测器间上下文和图像分类器重新排序。最密切的比较是与Uijlings等人研究的UVA系统,因为R-CNN的系统使用相同的区域候选算法。为了对区域进行分类,UVA的方法构建了一个四级空间金字塔,并使用密集采样的SIFT、扩展的OpponentSIFT和RGBSIFT描述符对其进行填充,每个向量使用4000字的码本进行量化。采用直方图相交核支持向量机进行分类。与UVA的多特征非线性核SVM方法相比,R-CNN在mAP方面取得了很大的改进,从35.1%提高到53.7%,同时速度也更快。R-CNN的方法在VOC 2011/12测试中达到了类似的性能(53.3%mAP)。

图3将R-CNN与ILSVRC 2013年比赛的参赛作品以及赛后的OverFeat结果进行了比较。R-CNN获得了31.4%的mAP,明显领先于OverFeat第二好的24.3%。为了了解AP在不同类别上的分布情况,还提供了方框图,并在表8中的文章末尾提供了一个perclass AP表。大多数竞争对手提交的资料(OverFeat、NEC-MU、UvAEuvision、Toronto A和UIUC-IFP)都使用了卷积神经网络,这表明CNN如何应用于目标检测存在显著差异,导致结果差异很大。

首先查看CNN不在PASCAL进行微调,即所有CNN参数仅在ILSVRC 2012上进行预训练后的结果。逐层分析性能(表2第1-3行)表明,fc7的特征概括起来比fc6的特征更差。这意味着,在不降低地图质量的情况下,可以删除29%或1680万个CNN参数。更令人惊讶的是,删除fc7和fc6会产生非常好的结果,尽管pool5功能仅使用CNN 6%的参数计算。CNN的大部分提取特征的能力来自其卷积层,而不是更大的密集连接层。这一发现表明,仅使用CNN的卷积层就可以计算任意大小图像的稠密特征图(从HOG的意义上讲)的潜在效用。这种表示方式将支持在pool5特性的基础上使用滑动窗

本文介绍了R-CNN(2014)、Fast R-CNN(2015)和Faster R-CNN(2015)这三个里程碑式的文本检测模型,从R-CNN的四个步骤到Fast R-CNN的RoI pooling和多任务损失,再到Faster R-CNN的RPN和端到端训练,详细阐述了它们的算法原理、改进和在PASCAL VOC数据集上的显著性能提升。
最低0.47元/天 解锁文章
467

被折叠的 条评论
为什么被折叠?



