3.1.2 基于分割的场景文本检测方法
基于分割的自然场景文本检测方法主要是借鉴传统的文本检测方法的思想,先通过卷积神经网络检测出基本的文本组件,然后通过一些后处理的方式将文本组件聚集成一个完整的文本实例。此类方法可以进一步划分为像素级别的方法(基于分割的方法)和文本片段级别的方法。
1)像素级别的基于分割的方法。
像素级别的文本检测方法通常借鉴物体语义分割和实例分割的思想,利用全卷积神经网络(fully convolution network,FCN)(Long 等人,2015)对图像中的每个像素点进行文本和非文本分类,从而得到文本区域掩码图(Mask)。
然后通过一些像素聚合的后处理方式将属于同一文本的文本像素点聚合在一起得到最后的文本实例边界框。上述部分自顶向下的方法虽然也借鉴了分割的思路,但同时也结合了整个文本边界框的回归,而像素级别的基于分割的方法则完全依靠像素级别的分类和后处理得到文本检测的结果。这类方法可以比较轻松地描述

本文概述了基于分割的自然场景文本检测方法,分为像素级别和文本片段级别。像素级方法依赖于FCN预测文本区域,后处理解决黏连问题;片段级则通过目标检测结合特征相似性拼接文本。重点介绍了各类代表性算法如PSENet、PAN和SegLink系列。

最低0.47元/天 解锁文章
298

被折叠的 条评论
为什么被折叠?



