【文本检测与识别白皮书-3.1】第二节:基于分割的场景文本检测方法

本文概述了基于分割的自然场景文本检测方法,分为像素级别和文本片段级别。像素级方法依赖于FCN预测文本区域,后处理解决黏连问题;片段级则通过目标检测结合特征相似性拼接文本。重点介绍了各类代表性算法如PSENet、PAN和SegLink系列。

3.1.2 基于分割的场景文本检测方法

基于分割的自然场景文本检测方法主要是借鉴传统的文本检测方法的思想,先通过卷积神经网络检测出基本的文本组件,然后通过一些后处理的方式将文本组件聚集成一个完整的文本实例。此类方法可以进一步划分为像素级别的方法(基于分割的方法)和文本片段级别的方法。

1)像素级别的基于分割的方法。

像素级别的文本检测方法通常借鉴物体语义分割和实例分割的思想,利用全卷积神经网络(fully convolution network,FCN)(Long 等人,2015)对图像中的每个像素点进行文本和非文本分类,从而得到文本区域掩码图(Mask)。

然后通过一些像素聚合的后处理方式将属于同一文本的文本像素点聚合在一起得到最后的文本实例边界框。上述部分自顶向下的方法虽然也借鉴了分割的思路,但同时也结合了整个文本边界框的回归,而像素级别的基于分割的方法则完全依靠像素级别的分类和后处理得到文本检测的结果。这类方法可以比较轻松地描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值