Character Region Awareness for Text Detection解读

本文深入解读CVPR 2019的一篇关于文本检测的文章,提出了将字符作为检测目标的新方法,通过弱监督学习和特定标签生成策略训练网络。文章介绍的框架基于VGG16的FCN网络,输出region score和affinity score来定位字符。通过人工合成数据和真实数据的结合训练,解决了无字符级标注的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

这篇文章是CVPR 2019的一篇文章,做的是文本检测,主要是从文本显著图入手的,作者创新性地构建了一个专用于character检测的网络,我觉得这才更符合于目标检测这一类的概念,一个character就是一个目标,而不是一个word,因为所有的word都是有character构成的,下面具体来看一下文章中的想法。
论文地址:https://arxiv.org/pdf/1904.01941.pdf

核心思想

1.提出单字分割以及单字间分割的方法,更符合目标检测这一核心概念,不是把文本框当做目标,这样使用小感受野也能预测大文本和长文本,只需要关注字符级别的内容而不需要关注整个文本实例
2.提出如何利用现有文本检测数据集合成数据得到真实数据的单字标注的弱监督方法

整体结构

在这里插入图片描述
上图是这个方法的整体框架,其实主要就是一个基于VGG16骨干网的FCN网络,文章的解码器采用了U-Net的方法,在stage 4后再接几个卷积层便可以得到分割图像了,这里输出分为两个通道region score和affinity score,分别为单字符中心区域的概率和相邻字符区域中心的概率,得到原图大小1/2的预测图。

弱监督学习

文中采用了一种弱监督学习方法训练网络,如图所示:

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值