CTPN阅读笔记

CTPN是一种新型网络,能精准定位自然图像中的文本行。通过垂直锚点机制联合预测位置和文本分数,提高了定位精度。网络内的循环神经网络使模型能探索上下文信息,有效检测模糊文本。CTPN无需后处理,在多尺度和多语言文本上表现优秀,且计算效率高。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要:我们提出了一种新的网络(CTPN),该网络能够精确定位自然图像中的文本行。CTPN直接在卷积特征图中检测一系列精细尺度文本建议中的文本行。我们开发了一种垂直锚点机制,可以联合预测每个固定宽度建议的位置和文本/非文本分数,从而显著提高定位精度。顺序建议自然地通过一个循环神经网络连接,该网络被无缝地并入卷积网络中,从而产生端到端可训练模型。这使得CTPN能够探索丰富的图像上下文信息,使得它能够有效地检测极其模糊的文本。CTPN在多尺度和多语言文本上工作可靠,无需进一步的后处理,这与以前需要多步后过滤的自底向上方法不同。它在2013年和2015年的ICDAR基准上实现了0.88和0.61 F-measure,远远超过了最近的结果。通过使用非常深的VGG16模型,CTPN的计算效率为0.14s/image。在线演示可从以下网址获得:http://textdet.com/.
CTPN结构:在这里插入图片描述
CTPN本质上是一个完全卷积网络,允许任意大小的输入图像。它通过在卷积特征图中密集滑动小窗口来检测文本行,并输出一系列细粒度的(例如,固定的16像素宽度)文本建议。
具体的实现步骤如下:
1.使用VGG16作为base net提取特征,得到conv5_3的特征作为feature map,大小是W×H×C。
2.在上述的feature map上使用大小为3*3的滑动窗滑动,每个窗口都能得到一个长度为3×3×C的特征向量,每个滑动窗口中心都会预测k个相对于anchor的偏移
3.将上一步得到的特征输入到一个双向LSTM中,得到长度为W×256的输出,然后接一个512的全连接层,准备输出。
4.输出层部分主要有三个输出:2k个vertical coordinate(垂直坐标),因为一个anchor用的是中心位置的高(y坐标)和矩形框的高度两个值表示的,所以一个anchor用2k个输出。(注意这里输出的是相对anchor的偏移);2k个score(分数),因为预测了k个text proposal,所以有2k个分数,text和non-text各1k个分数。k个side-refinement,这部分主要是用来精修文本行的两个端点的,可以准确估计每个anchor/proposal在左右水平边的偏移。
5.使用一个标准的非极大值抑制算法来滤除多余的text proposal。
6.最后使用基于图的文本行构造算法,将得到的一个一个的文本段合并成文本行。

贡献:
我们提出了CTPN,它直接在卷积层定位文本序列。这克服了以前基于字符检测的自底向上方法带来的一些主要限制。我们利用了强深度卷积特征和共享计算机制的优势,并提出了上图描述的CTPN体系结构。它的主要贡献如下:

  1. 我们将文本检测问题转化为一系列细粒度的文本建议的定位。我们开发了一个锚点回归机制,可以联合预测每个文本建议的垂直位置和文本/非文本分数,从而获得出色的定位精度。
  2. 我们提出了一种网络内循环机制,将卷积特征图中的连续文本建议优雅地连接起来。通过这种连接,我们的检测器可以探索文本行的有意义的上下文信息,使其能够可靠地检测极具挑战性的文本。
  3. 两种方法无缝集成,以满足文本序列的性质,产生统一的端到端可训练模型。我们的方法能够在单个过程中处理多尺度和多语言文本,避免进一步的后过滤或细化。
  4. 我们的方法在许多基准数据集达到了新的最先进的成果,显著改善了最近的成果(例如,0.88 F-measure超过了ICDAR 2013的0.83 的F-measure,0.61 F-measure超过了ICDAR 2015的0.54的F-measure)。此外,它的计算效率很高,通过使用非常深的VGG16模型可以获得0.14s/image的运行时间(在ICDAR 2013上)。

数据集:
我们在五个文本检测基准数据集上评估CTPN,即ICDAR 2011,ICDAR 2013,ICDAR 2015,SWT和Multilingual数据集。在我们的实验中,我们首先单独验证每个proposal组件的效率,例如细粒度文本proposal检测或网络内循环连接。ICDAR 2013用于该组件的评估。

总结:
我们提出了CTPN(一个有效的端到端可训练的文本检测器)。CTPN直接在卷积图的一系列细粒度文本提议中检测文本行。我们开发了垂直锚点机制,联合预测每个提议的精确位置和文本/非文本分数,这是实现文本准确定位的关键。我们提出了一个网内RNN层,可以优雅地连接顺序文本提议,使其能够探索有意义的上下文信息。这些关键技术的发展带来了检测极具挑战性的文本的强大能力,同时减少了误检。CTPN通过在五个基准数据集上实现新的最先进的性能而高效,运行时间为0.14秒/图像。

优缺点:
优点:
1.用检测小框代替直接检测大框;
2.引入RNN提升文本检测效果;
3.Side-refinement(边缘细化)来提升文本框边界预测精准度。
缺点:
对于非水平文本的检测效果并不好。CTPN论文中给出的文本检测效果图都是文本位于水平方向的,显然CTPN并没有针对多方向的文本检测进行深入探讨。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值