[论文理解] Connectionist Text Proposal Network

最新推荐文章于 2025-05-28 14:48:11 发布

weixin_30242907

最新推荐文章于 2025-05-28 14:48:11 发布

阅读量457

点赞数

CC 4.0 BY-SA版权

文章标签：人工智能

原文链接：http://www.cnblogs.com/aoru45/p/10498444.html

CTPN是一种先进的文本检测算法，利用VGG16和RNN在自然场景中精确提取文本。它通过固定宽度的anchor预测垂直坐标，结合BLSTM增强识别准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Connectionist Text Proposal Network

简介

CTPN是通过VGG16后在特征图上采用3*3窗口进行滑窗，采用与RPN类似的anchor机制，固定width而只预测anchor的y坐标和高度，达到比较精准的text proposal效果。同时，文章的亮点在于引入了RNN，使用BLSTM使得预测更加精准。CTPN在自然场景下文本提取的效果很不错，不同于传统的bottom-up方法，传统方法通过检测单个字符然后再去连接文本线，其准确性主要依赖于单个字符的识别，而且错误会累积，其使用的仅仅是low-level的feature；而本文采用的方法提取的是深度的特征，采用anchor机制做的精准预测，然后用循环神经网络对anchor识别的区域进行连接，精度要高很多。

结构：

Detecting Text in Fine-scale Proposals

detection过程很简单，直接在vgg-16后面用3*3的滑窗去滑feature map的最后一个卷积层，固定感受野大小为228pixels，total stride为16pixels，这样每个anchor对应在原图中的间隔就是16pixels。total stride和感受野的大小都是由网络结构决定的，也就是说，在网络结构确定的情况下，我们可以人为地去设置感受野的大小和total stride，由于total stride = s *2 *2 *2 *2，由于设置的total stride =16 ，所以可以确定3*3的stride是1，也就是后面每个anchor的水平距离在原图中对应的是16pixels。

之后，作者修改了原始的rpn，去预测长度固定为16pixels的区域，与rpn不同的是，本文只预测区域的y轴坐标和高度，此外，还输出anchor是或不是文字区域的二分类结果。由于上面确定了每次anchor移动的距离恰好是total stride，所以这里对应上了。然后对每个特征点设计了10种vertical anchor，这些anchor的宽度都为16pixels，高度从11 到 273pixels（每次除以0.7），让这10个anchor独立地预测中心点坐标(vc)和高度(vh)，定义如下：

对每个预测而言，水平坐标和k个anchor的位置是固定的，这些都是可以预先在图像进来之后计算出来的，而分类器输出的结果是text/non-text的得分和预测的k个anchor的y轴坐标(v)。而识别出来的text proposals 是从那些text/non-text的得分大于0.7，然后再经过MNS得到的。这样只预测纵坐标的做法比rpn的准确率提升了很多，因为其提供了更多的监督信息。

Recurrent Connectionist Text Proposals

本文的亮点就在于使用了循环神经网络来连接text proposals，为了提升定位的准确率，作者把文本线看成是一连串的text proposals，然后去单独预测，但是这样做发现很容易错将非文字区域识别为文字区域。由于RNN对处理上下文很好，而文字有着很强的上下文关联，所以作者顺理成章的引入RNN，将conv5层的feature的每个window扫描后的结果作为RNN的输入，然后循环更新这个隐状态定义如下：