论文:EAST:An Efficient and Accurate Scene Text Detector
EAST,高效且准确的场景文字检测算法,不仅仅pipelines简练,而且还能直接在图像中检测任意方向和四边形文本行和文字。集中精力在网络架构和损失函数的设计也是EAST过程简练的原因之一。如下图所示,是EAST算法与其他文本检测算法的比较,从图中清晰地看出,EAST算法在速度和准确率方面都遥遥领先。
EAST的过程很简单,包含两步,利用全卷积网络模型预测单词和文本行,输出要么是旋转的矩形要么是四边形的文本候选框,然后使用非极大值抑制NMS算法过滤掉冗余的候选框,得到最后的结果。论文中作者一直在强调EAST算法过程简洁,消除了多余的中间步骤。
网络架构
在文本检测中,文字区域大小各异,检测大的文字区域需要神经网络后期的特征,然而检测小区域的文字则需要神经网络前期低级的信息,也就是说,网络需要利用不同层的特征来满足这些要求,HyperNet网络满足要求,但是在大特征图上合并通道数将会增加计算开销,所以作者又引进了U-shape的思想,逐渐合并特征图,并且使得上采样分支较小,这样既能保证利用到不同层的特征,而且又能较少计算量。网络架构如下所示:包括三部分:特征提取主干,特征整合分支和输出层。
主干部分是能够在ImageNet数据集上预训练的卷积网络,具有交错卷积和池化层。主干网络提取四个级别的特征图,记为,大小分别为
在特征合并分支中,在每一步合并阶段,来自最后一个阶段的特征图被喂入一个上采样层(unpooling layer)使得其大小翻倍,然后和最新的特征图进行连接,接下来,一个1*1的卷积层用于减少通道数,后接一个3*3的卷积层,它融合信息并且产生这个合并阶段的最后输出,最后一个合并阶段完成之后,使用3*3的卷积产生合并分支的最后输出并反馈到输出层。关于特征合并分支的整个运算流程可用如下公式表示:
输出层将合并分支的32个通道的特征图映射成1通道的分数特征图(score feature)和多通道的几何特征图(geometry map)
,几何输出是RBOX或者QUAD。EAST中有两种几何形状,Rotated Box(RBOX)和Quadrangle(QUAD),并为这两种几何形状设计不同的损失函数。RBOX由4个通道的轴对齐边界框
和一个通道旋转角度
,其中4个通道分别表示像素位置到矩形的顶部,右侧,底部和左侧的4个距离。对于QUAD,我们使用8个数字表示四边形的四个顶点到像素位置的偏移
,每一个位置的偏移量包含两个元素
,总共有8个通道数输出,几何输出的设计如下所示:
损失函数
EAST算法的损失函数形式如下所示,其中为score map的损失函数,
为几何形状的损失函数。
EAST算法追求简洁,对于使用balanced sampling和hard negative mining策略解决目标物体不平衡的分布问题,虽然有效但是过程繁杂,所以作者使用类平衡交叉熵损失函数(class balanced cross-entropy)作为,在实践中,被证实效果很好。
在自然图像中,由于文字的形状各异,如果单纯地使用和
作为损失函数,对于大的文字或者长的文本区域,会导致损失偏差,既然要同时能检测出不同形状的文字,那么
损失函数应该是尺度无关的scale-invariant,所以作者在RBOX回归中对AABB部分使用IoU损失函数,对QUAD损失函数,采用尺度归一化平滑
损失函数(scale-normalized smoothed-L1 loss)
RBOX包括两部分,一部分是AABB,一部分是旋转角度,RBOX的完整损失函数为:
在实验中,设置, 其中
采用IoU 损失函数,如下所示:
其中表示预测的AABB几何形状,
是相对应的真实值,定义
分别表示为一个像素点到相应矩形的顶部,右侧,底部和左侧的距离,可以很容易地看出相交部分矩形
的宽度和高度值
并集的面积可由下述公式给出:
旋转角度的损失函数如下,其中为预测值,
为真实值:
QUAD是在smoothed-L1损失函数的基础上添加一个正则化项,假设Q中的所有坐标是一有序的集合,,
损失函数定义为:
正则化项是四边形最短的边
Locality-Aware NMS
为了输出最后的结果,需要使用NMS算法过滤到冗余的候选框,然而传统的NMS算法的时间复杂度为,作者对其进行改进,最坏情况下的复杂度与传统NMS一致,最好的时间复杂度为
.
假设来自附近相邻像素的几何形状往往高度相关,作者提出合并同一行的几何形状,并且逐行合并几何图形,一直迭代直到最后的几何图形,算法具体流程如下所示,在WEIGHTEDMERGE(g,p)中,合并的四边形的坐标是给定两个四边形值的加权平均,如果 a = WEIGHTEDMERGE(g,p), , 那么V(a) = V(g) + V(p), V(a)是几何图形a的值。