目标检测之模型篇(4)【EAST】

本文介绍了EAST模型,一种用于场景文本检测的高效、准确的pipeline,通过FCN和NMS两个阶段,直接预测文本区域和几何形状。EAST避免了传统文本检测中的中间步骤,实现端到端训练,提高了性能和速度。关键部分包括神经网络模型、特征提取和融合、输出层设计、标签生成、损失函数以及位置感知的NMS。实验结果显示EAST在多个数据集上表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 前言

这篇文章是我最早读的模型类文章,但是当时还没萌生出写博客复习总结的想法。还好这个想法出现的不晚,现在是第四篇模型类文章,刚好拿来复习一下。当时读的时候就觉得作者字里行间充满了自信(可能是因为EAST模型的效果真的很好吧),EAST这名字又有种东方的神秘气息(误),话不多说,还是开始介绍吧。
EAST全名an Efficient and Accuracy Scene Text detection pipeline,高效、准确的场景文本识别管道(不得不说这缩写真的好中二啊)。该Pipeline直接预测图像中任意方向和矩形形状的文本或文本行,通过单个神经网络消除不必要的中间步骤(例如候选聚合和单词分割)。
三个贡献:

  • 提出了一个由两阶段组成的场景文本检测方法:FCN阶段NMS阶段。FCN直接生成文本区域,不包括冗余和耗时的中间步骤。
  • 该pipeline可灵活生成wordlevel或line level预测,其几何形状可为旋转框或矩形。
  • 所提出的算法在准确性和速度上明显优于最先进的方法。
    在这里插入图片描述
    常规的文本检测Pipeline都含有很多中间步骤,而这些中间步骤会导致误差的累积,性能次优,且处理时间较长。本文提出的方法,只有FCN和NMS两个中间步骤,放弃了不必要的中间组件和步骤,并允许进行端到端的训练和优化。由此产生的框架是轻量级的单个神经网络,在性能和速度上都明显优于所有以前的方法。

2. 实现

该算法的关键部分是一个神经网络模型,该模型通过训练直接预测图形中的文本实例及其几何形状的存在。该模型是一种完全卷积神经网络,适用于文本检测,输出密集的每像素的词或文本行。这就消除了中间步骤如候选人提议,文本区域形成和分区。后处理步骤仅包括阈值化和预测几何形状的NMS。由于该检测器是一种高效、准确的场景文本检测管道,故将其命名EAST。

2.1 Pipeline

图像被送到FCN中并且生成像素级的文本分数特征图和几何图形特征图的多个通道。其中一个预测通道是分数特征图,其像素值范围是[0,1]。剩下的通道表示从每个像素视图中包含单词的几何图形。分数代表在同一位置预测的几何形状的置信度。
两种文本区域的几何形状:旋转框(RBOX)矩形(QUAD)

2.2 网络设计

在这里插入图片描述

  • 特征提取层:先用通用网络如VGG16,Pvanet,Resnet等作为基础网络(文中用的是Pvanet),用于特征提取。抽取不同大小的Feature map(输出图像的 1 32 , 1 16 , 1 8 , 1 4 \frac{1}{32},\frac{1}{16},\frac{1}{8},\frac{1}{4} 321,16
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值