【转载】【论文笔记】文本检测之EAST

最新推荐文章于 2024-05-05 04:15:49 发布

京局京段蓝白猪

最新推荐文章于 2024-05-05 04:15:49 发布

阅读量1.8k

点赞数

分类专栏：深度学习 OCR

深度学习同时被 2 个专栏收录

19 篇文章

订阅专栏

OCR

8 篇文章

订阅专栏

本文介绍了端到端的文本检测方法EAST，它消除中间多个stage，直接预测文本行。该方法结合DenseBox和Unet网络特性，采用全卷积网络和非极大值抑制，可检测不同尺度和方向文本。文中还阐述了实现细节、训练标签生成、loss计算等，最后给出在ICDAR2015数据集上的评测结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【原文地址】https://zhuanlan.zhihu.com/p/37504120

简介

论文题目：EAST: An Efficient and Accurate Scene Text Detector

论文地址：https://arxiv.org/pdf/1704.03155.pdf

代码复现：https://github.com/argman/EAST

传统的文本检测方法和一些基于深度学习的文本检测方法，大多是multi-stage，在训练时需要对多个stage调优，这势必会影响最终的模型效果，而且非常耗时．针对上述存在的问题，本文提出了端到端的文本检测方法，消除中间多个stage(如候选区域聚合，文本分词，后处理等)，直接预测文本行．

下图给的是几个不同框架的检测pipeline：可以发现本文只包含两个stage

论文关键idea

提出了基于two-stage的文本检测方法：全卷积网络(FCN)和非极大值抑制(NMS)，消除中间过程冗余，减少检测时间．
该方法即可以检测单词级别，又可以检测文本行级别．检测的形状可以为任意形状的四边形：即可以是旋转矩形(下图中绿色的框)，也可以是普通四边形(下图中蓝色的框)）．
采用了Locality-Aware NMS来对生成的几何进行过滤
该方法在精度和速度方面都有一定的提升．

Pipeline

论文的思想非常简单，结合了DenseBox和Unet网络中的特性，具体流程如下：

先用一个通用的网络(论文中采用的是Pvanet，实际在使用的时候可以采用VGG16，Resnet等)作为base net ，用于特征提取
基于上述主干特征提取网络，抽取不同level的feature map（它们的尺寸分别是inuput-image的 $\tfrac{1}{32}$ ， $\tfrac{1}{16}$ ， $\tfrac{1}{8}$ ， $\tfrac{1}{4}$ ），这样可以得到不同尺度的特征图．目的是解决文本行尺度变换剧烈的问题，ealy stage可用于预测小的文本行，late-stage可用于预测大的文本行．
特征合并层，将抽取的特征进行merge．这里合并的规则采用了U-net的方法，合并规则：从特征提取网络的顶部特征按照相应的规则向下进行合并，这里描述可能不太好理解，具体参见下述的网络结构图
网络输出层，包含文本得分和文本形状．根据不同文本形状(可分为RBOX和QUAD)，输出也各不相同，具体参看网络结构图

实现细节

合并层中feature map的合并规则

具体的合并步骤如下：

特征提取网络层中抽取的最后层feature map被最先送入uppooling层(这里是将图像放大原先的２倍)，
然后与前一层的feature map进行concatenate，
接着依次送入卷积核大小为 $1\times{1}$ ， $3\times{3}$ ，卷积核的个数随着层递减，依次为128，64，32
重复1-3的步骤２次
将输出经过一个卷积核大小为 $3\times{3}$ ，核数为32个

具体的公式如下：

输出层的输出

对于检测形状为RBOX，则输出包含文本得分和文本形状(AABB boundingbox 和rotate angle)，也就是一起有６个输出，这里AABB分别表示相对于top,right,bottom,left的偏移
对于检测形状为QUAD，则输出包含文本得分和文本形状(８个相对于corner vertices的偏移)，也就是一起有９个输出，其中QUAD有８个，分别为 $(x_{i},y_{i}),i\subset [1,2,3,4]$

训练标签生成

QUAD的分数图生成

得分图上QUAD的正面积为原图的缩小版，缩小的规则如下：

对一个四边形Q={pi|i属于1,2,3,4},pi是按顺时针顺序排列的四边形的顶点。对于缩小的Q，我们首先计算ri：

$r_{i}=min(D(p_{i},p_{(i mod 4)+1},D(p_{i},p_{(i-1) mod 4)+1})$
D(pi,pj)是两个顶点pi和pj之间的L2距离。

我们首先收缩两个长点的边，再收缩两个短点的边。对于每对对边，我们通过比较平均长度值来确定长边。对于每个边 $<p_{i},p_{(i mod 4 +1)}>$ ，我们分别通过沿边赂内移动两个端点收缩它，分别为 $0.3r_{i}$ 和 $0.3r_{(i mod 4)+1}$ ，这里论文中缩放的系数是0.3，具体可以根据你的实际任务设置。