场景文字检测(二)--EAST

EAST是一种高效准确的场景文字检测算法,采用简洁的全卷积网络结构,能够直接检测图像中的任意方向和四边形文本。该算法通过网络架构和损失函数的设计实现了过程的简化,包括特征提取、特征整合及输出层。使用类平衡交叉熵损失函数和尺度无关的损失函数,提高了检测精度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文:EAST:An Efficient and Accurate Scene Text Detector

EAST,高效且准确的场景文字检测算法,不仅仅pipelines简练,而且还能直接在图像中检测任意方向和四边形文本行和文字。集中精力在网络架构和损失函数的设计也是EAST过程简练的原因之一。如下图所示,是EAST算法与其他文本检测算法的比较,从图中清晰地看出,EAST算法在速度和准确率方面都遥遥领先。

EAST的过程很简单,包含两步,利用全卷积网络模型预测单词和文本行,输出要么是旋转的矩形要么是四边形的文本候选框,然后使用非极大值抑制NMS算法过滤掉冗余的候选框,得到最后的结果。论文中作者一直在强调EAST算法过程简洁,消除了多余的中间步骤。

网络架构

在文本检测中,文字区域大小各异,检测大的文字区域需要神经网络后期的特征,然而检测小区域的文字则需要神经网络前期低级的信息,也就是说,网络需要利用不同层的特征来满足这些要求,HyperNet网络满足要求,但是在大特征图上合并通道数将会增加计算开销,所以作者又引进了U-shape的思想,逐渐合并特征图,并且使得上采样分支较小,这样既能保证利用到不同层的特征,而且又能较少计算量。网络架构如下所示:包括三部分:特征提取主干,特征整合分支和输出层。

主干部分是能够在ImageNet数据集上预训练的卷积网络,具有交错卷积和池化层。主干网络提取四个级别的特征图,记为f_{i},大小分别为\frac{1}{32}, \frac{1}{16}, \frac{1}{8}, \frac{1}{4}

在特征合并分支中,在每一步合并阶段,来自最后一个阶段的特征图被喂入一个上采样层(unpooling layer)使得其大小翻倍,然后和最新的特征图进行连接,接下来,一个1*1的卷积层用于减少通道数,后接一个3*3的卷积层,它融合信息并且产生这个合并阶段的最后输出,最后一个合并阶段完成之后,使用3*3的卷积产生合并分支的最后输出并反馈到输出层。关于特征合并分支的整个运算流程可用如下公式表示:

输出层将合并分支的32个通道的特征图映射成1通道的分数特征图(score feature)F_{s}和多通道的几何特征图(geometry map)F_{g},几何输出是RBOX或者QUAD。EAST中有两种几何形状,Rotated Box(RBOX)和Quadrangle(QUAD),并为这两种几何形状设计不同的损失函数。RBOX由4个通道的轴对齐边界框\textbf{R}和一个通道旋转角度\theta,其中4个通道分别表示像素位置到矩形的顶部,右侧,底部和左侧的4个距离。对于QUAD,我们使用8个数字表示四边形的四个顶点到像素位置的偏移\left \{ p_{i} | i \in \left \{ 1,2,3,4 \right \} \right \},每一个位置的偏移量包含两个元素\left(\triangle x_{i}, \triangle y_{i} \right ),总共有8个通道数输出,几何输出的设计如下所示:

损失函数

EAST算法的损失函数形式如下所示,其中L_{s}为score map的损失函数,L_{g}为几何形状的损失函数。\lambda _{g}=1

EAST算法追求简洁,对于使用balanced sampling和hard negative mining策略解决目标物体不平衡的分布问题,虽然有效但是过程繁杂,所以作者使用类平衡交叉熵损失函数(class balanced cross-entropy)作为L_{s},在实践中,被证实效果很好。

在自然图像中,由于文字的形状各异,如果单纯地使用L_{1}L_{2}作为损失函数,对于大的文字或者长的文本区域,会导致损失偏差,既然要同时能检测出不同形状的文字,那么L_{g}损失函数应该是尺度无关的scale-invariant,所以作者在RBOX回归中对AABB部分使用IoU损失函数,对QUAD损失函数,采用尺度归一化平滑L_{1}损失函数(scale-normalized smoothed-L1 loss)

RBOX包括两部分,一部分是AABB,一部分是旋转角度,RBOX的完整L_{g}损失函数为:

在实验中,设置\lambda_{\theta}=10, 其中L_{AABB}采用IoU 损失函数,如下所示:

其中\hat{R}表示预测的AABB几何形状,R^{*}是相对应的真实值,定义d_{1},d_{2},d_{3},d_{4}分别表示为一个像素点到相应矩形的顶部,右侧,底部和左侧的距离,可以很容易地看出相交部分矩形\left | \hat{R}-R^{*} \right |的宽度和高度值

并集的面积可由下述公式给出:

旋转角度的损失函数如下,其中\hat{\theta}为预测值,\theta^{*}为真实值:

QUAD是在smoothed-L1损失函数的基础上添加一个正则化项,假设Q中的所有坐标是一有序的集合,C_{Q}=\left\{ x_{1}, y_{1}, x_{2}, y_{2}, x_{3}, y_{3}, x_{4}, y_{4} \right\}L_{g}损失函数定义为:

 正则化项N_{Q^{*}}是四边形最短的边

Locality-Aware NMS

为了输出最后的结果,需要使用NMS算法过滤到冗余的候选框,然而传统的NMS算法的时间复杂度为O\left ( n^{2} \right ),作者对其进行改进,最坏情况下的复杂度与传统NMS一致,最好的时间复杂度为O\left ( n \right ).

假设来自附近相邻像素的几何形状往往高度相关,作者提出合并同一行的几何形状,并且逐行合并几何图形,一直迭代直到最后的几何图形,算法具体流程如下所示,在WEIGHTEDMERGE(g,p)中,合并的四边形的坐标是给定两个四边形值的加权平均,如果 a = WEIGHTEDMERGE(g,p), a_{i} = V\left(g \right )g_{i} + V\left(p \right )p_{i}, 那么V(a) = V(g) + V(p), V(a)是几何图形a的值。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

马鹤宁

谢谢

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值