【文本检测与识别白皮书-3.1】第三节：算法模型

原创

已于 2022-10-31 14:07:03 修改 · 855 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #目标检测 #深度学习

于 2022-10-21 11:27:28 首次发布

本文介绍了R-CNN（2014）、Fast R-CNN（2015）和Faster R-CNN（2015）这三个里程碑式的文本检测模型，从R-CNN的四个步骤到Fast R-CNN的RoI pooling和多任务损失，再到Faster R-CNN的RPN和端到端训练，详细阐述了它们的算法原理、改进和在PASCAL VOC数据集上的显著性能提升。

3.1.3 常用的文本检测模型

R-CNN、Fast R-CNN、Faster R-CNN

1）R-CNN(CVPR 2014, TPAMI 2015)

2014年论文《Rich feature hierarchies for accurate object detection and semantic segmentation Tech report》提出R-CNN模型，即Regions with CNN features。这篇论文可以算是将CNN方法应用到目标检测问题上的开山之作。

R-CNN的算法原理：

RCNN算法分成四个步骤：

（1）获取输入图像

（2）提取大约2000个自下而上的候选区域

（3）使用大型卷积神经网络（CNN）计算每个建议的特征

（4）使用特定分类的线性支持向量机（SVM）对每个区域进行分类。

实验结果：

表1显示了VOC 2010数据集上的实验完整结果。实验将R-CNN方法与四个强Baseline进行了比较，其中包括SegDPM，它将DPM检测器与语义分割系统的输出相结合，并使用额外的检测器间上下文和图像分类器重新排序。最密切的比较是与Uijlings等人研究的UVA系统，因为R-CNN的系统使用相同的区域候选算法。为了对区域进行分类，UVA的方法构建了一个四级空间金字塔，并使用密集采样的SIFT、扩展的OpponentSIFT和RGBSIFT描述符对其进行填充，每个向量使用4000字的码本进行量化。采用直方图相交核支持向量机进行分类。与UVA的多特征非线性核SVM方法相比，R-CNN在mAP方面取得了很大的改进，从35.1%提高到53.7%，同时速度也更快。R-CNN的方法在VOC 2011/12测试中达到了类似的性能（53.3%mAP）。

图3将R-CNN与ILSVRC 2013年比赛的参赛作品以及赛后的OverFeat结果进行了比较。R-CNN获得了31.4%的mAP，明显领先于OverFeat第二好的24.3%。为了了解AP在不同类别上的分布情况，还提供了方框图，并在表8中的文章末尾提供了一个perclass AP表。大多数竞争对手提交的资料（OverFeat、NEC-MU、UvAEuvision、Toronto A和UIUC-IFP）都使用了卷积神经网络，这表明CNN如何应用于目标检测存在显著差异，导致结果差异很大。

首先查看CNN不在PASCAL进行微调，即所有CNN参数仅在ILSVRC 2012上进行预训练后的结果。逐层分析性能（表2第1-3行）表明，fc7的特征概括起来比fc6的特征更差。这意味着，在不降低地图质量的情况下，可以删除29%或1680万个CNN参数。更令人惊讶的是，删除fc7和fc6会产生非常好的结果，尽管pool5功能仅使用CNN 6%的参数计算。CNN的大部分提取特征的能力来自其卷积层，而不是更大的密集连接层。这一发现表明，仅使用CNN的卷积层就可以计算任意大小图像的稠密特征图（从HOG的意义上讲）的潜在效用。这种表示方式将支持在pool5特性的基础上使用滑动窗

最低0.47元/天解锁文章