场景文字检测(二)--EAST

最新推荐文章于 2022-11-21 20:27:50 发布

马鹤宁

最新推荐文章于 2022-11-21 20:27:50 发布

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习和深度学习之旅文章标签：文字识别 EAST

本文链接：https://blog.youkuaiyun.com/weixin_42111770/article/details/88876522

机器学习和深度学习之旅专栏收录该内容

84 篇文章

订阅专栏

EAST是一种高效准确的场景文字检测算法，采用简洁的全卷积网络结构，能够直接检测图像中的任意方向和四边形文本。该算法通过网络架构和损失函数的设计实现了过程的简化，包括特征提取、特征整合及输出层。使用类平衡交叉熵损失函数和尺度无关的损失函数，提高了检测精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：EAST：An Efficient and Accurate Scene Text Detector

EAST，高效且准确的场景文字检测算法，不仅仅pipelines简练，而且还能直接在图像中检测任意方向和四边形文本行和文字。集中精力在网络架构和损失函数的设计也是EAST过程简练的原因之一。如下图所示，是EAST算法与其他文本检测算法的比较，从图中清晰地看出，EAST算法在速度和准确率方面都遥遥领先。

EAST的过程很简单，包含两步，利用全卷积网络模型预测单词和文本行，输出要么是旋转的矩形要么是四边形的文本候选框，然后使用非极大值抑制NMS算法过滤掉冗余的候选框，得到最后的结果。论文中作者一直在强调EAST算法过程简洁，消除了多余的中间步骤。

网络架构

在文本检测中，文字区域大小各异，检测大的文字区域需要神经网络后期的特征，然而检测小区域的文字则需要神经网络前期低级的信息，也就是说，网络需要利用不同层的特征来满足这些要求，HyperNet网络满足要求，但是在大特征图上合并通道数将会增加计算开销，所以作者又引进了U-shape的思想，逐渐合并特征图，并且使得上采样分支较小，这样既能保证利用到不同层的特征，而且又能较少计算量。网络架构如下所示：包括三部分：特征提取主干，特征整合分支和输出层。

主干部分是能够在ImageNet数据集上预训练的卷积网络，具有交错卷积和池化层。主干网络提取四个级别的特征图，记为 $f_{i}$ ，大小分别为 $\frac{1}{32}, \frac{1}{16}, \frac{1}{8}, \frac{1}{4}$

在特征合并分支中，在每一步合并阶段，来自最后一个阶段的特征图被喂入一个上采样层(unpooling layer)使得其大小翻倍，然后和最新的特征图进行连接，接下来，一个1*1的卷积层用于减少通道数，后接一个3*3的卷积层，它融合信息并且产生这个合并阶段的最后输出，最后一个合并阶段完成之后，使用3*3的卷积产生合并分支的最后输出并反馈到输出层。关于特征合并分支的整个运算流程可用如下公式表示：

输出层将合并分支的32个通道的特征图映射成1通道的分数特征图(score feature) $F_{s}$ 和多通道的几何特征图(geometry map) $F_{g}$ ,几何输出是RBOX或者QUAD。EAST中有两种几何形状，Rotated Box(RBOX)和Quadrangle(QUAD)，并为这两种几何形状设计不同的损失函数。RBOX由4个通道的轴对齐边界框 $\textbf{R}$ 和一个通道旋转角度 $\theta$ ，其中4个通道分别表示像素位置到矩形的顶部，右侧，底部和左侧的4个距离。对于QUAD，我们使用8个数字表示四边形的四个顶点到像素位置的偏移 $\left \{ p_{i} | i \in \left \{ 1,2,3,4 \right \} \right \}$ ，每一个位置的偏移量包含两个元素 $\left(\triangle x_{i}, \triangle y_{i} \right )$ ，总共有8个通道数输出，几何输出的设计如下所示：

损失函数

EAST算法的损失函数形式如下所示，其中 $L_{s}$ 为score map的损失函数， $L_{g}$ 为几何形状的损失函数。 $\lambda _{g}=1$

EAST算法追求简洁，对于使用balanced sampling和hard negative mining策略解决目标物体不平衡的分布问题，虽然有效但是过程繁杂，所以作者使用类平衡交叉熵损失函数(class balanced cross-entropy)作为 $L_{s}$ ，在实践中，被证实效果很好。

在自然图像中，由于文字的形状各异，如果单纯地使用 $L_{1}$ 和 $L_{2}$ 作为损失函数，对于大的文字或者长的文本区域，会导致损失偏差，既然要同时能检测出不同形状的文字，那么 $L_{g}$ 损失函数应该是尺度无关的scale-invariant，所以作者在RBOX回归中对AABB部分使用IoU损失函数，对QUAD损失函数，采用尺度归一化平滑 $L_{1}$ 损失函数(scale-normalized smoothed-L1 loss)

RBOX包括两部分，一部分是AABB，一部分是旋转角度，RBOX的完整 $L_{g}$ 损失函数为：

在实验中，设置 $\lambda_{\theta}=10$ , 其中 $L_{AABB}$ 采用IoU 损失函数，如下所示：

其中 $\hat{R}$ 表示预测的AABB几何形状， $R^{*}$ 是相对应的真实值，定义 $d_{1},d_{2},d_{3},d_{4}$ 分别表示为一个像素点到相应矩形的顶部，右侧，底部和左侧的距离，可以很容易地看出相交部分矩形 $\left | \hat{R}-R^{*} \right |$ 的宽度和高度值

并集的面积可由下述公式给出：

旋转角度的损失函数如下，其中 $\hat{\theta}$ 为预测值， $\theta^{*}$ 为真实值：

QUAD是在smoothed-L1损失函数的基础上添加一个正则化项，假设Q中的所有坐标是一有序的集合， $C_{Q}=\left\{ x_{1}, y_{1}, x_{2}, y_{2}, x_{3}, y_{3}, x_{4}, y_{4} \right\}$ ， $L_{g}$ 损失函数定义为：

正则化项 $N_{Q^{*}}$ 是四边形最短的边

Locality-Aware NMS

为了输出最后的结果，需要使用NMS算法过滤到冗余的候选框，然而传统的NMS算法的时间复杂度为 $O\left ( n^{2} \right )$ ，作者对其进行改进，最坏情况下的复杂度与传统NMS一致，最好的时间复杂度为 $O\left ( n \right )$ .

假设来自附近相邻像素的几何形状往往高度相关，作者提出合并同一行的几何形状，并且逐行合并几何图形，一直迭代直到最后的几何图形，算法具体流程如下所示，在WEIGHTEDMERGE(g,p)中，合并的四边形的坐标是给定两个四边形值的加权平均，如果 a = WEIGHTEDMERGE(g,p)， $a_{i} = V\left(g \right )g_{i} + V\left(p \right )p_{i}$ , 那么V(a) = V(g) + V(p), V(a)是几何图形a的值。