2.基于分割的文本检测算法--DBNet

本文介绍了XiangBai等人2019年提出的实时文本检测方法,重点在于DifferentiableBinarization(DB)技术,它允许模型在训练时端到端地处理二值化过程,提高了检测速度和准确性。模型包含全卷积结构,输出分割概率图和阈值图,通过可微分的二值化操作简化后处理步骤。此外,文章讨论了自适应阈值、标签生成和模型优化策略,如使用二分类交叉熵损失和L1损失函数。


欢迎访问个人网络日志🌹🌹知行空间🌹🌹


1.基本情况

论文:Real-time Scene Text Detection with Differentiable Binarization
代码:DB

2019年11月华中科技大学的Xiang Bai等提出的方法。

基于分割的文本检测方法对分割结果的概率图进行二值化后处理,然后来提取文本区域,可以检测任意形状的文本区域。但基于分割的文本检测算法一般都需要复杂的后处理,影响推理的性能。

在这里插入图片描述

上图中,蓝色的路径表示传统的基于分割的文本检测,完整流程包括得到分割概率图,使用阈值二值化,然后通过像素聚类等手段得到最终的文本检测结果,红色路径是作者提出的新的方法,同时输出分割概率图和进行二值化使用的阈值图,之后使用一个可微分的二值化操作求得二值化的图像,其中虚线表示操作只发生在预测阶段,实线表示在训练和预测阶段都会发生。阅读源码可以发现,与上图中描述不同,训练阶段的二值化结果是通过可微分的二值化操作得到的,预测阶段的二值化结果仍然使用的是固定阈值来计算的。

在这篇论文中,作者主要的创新点就是提出了可微分二值化运算(Differentiable Binarization, DB),DB的引入使得在训练时可以将二值化操作放入模型中,从而实现模型的端到端训练,简化后处理,加快运算速度。

2.主要工作

2.1 模型架构

在这里插入图片描述

从上图中可以看到网络使用了全卷积结构,将多个尺度的特征图使用FPN直接进行融合,经过上采样得到同样大小的特征图进行concatenate拼接,经过两个分支,一个输出分割概率图,一个输出阈值图,使用这两个结果,输入到DB运算中得到近似二值图,对二值图处理得到文本区域。

2.2 二值化

backbone提取的特征图为 F F F,表示分割结果的概率图为 P P P,阈值图为 T T T,通过 P P P F F F计算得到的阈值图为 B ^ \hat{B} B^

标准二值化:给定表示分割结果的概率图 P ∈ R H × W P\in R^{H\times W} PRH×W H / W H/W H/W表示图的高/宽,标准二值化操作可表示成:

B i , j = { 1 , i f   P i , j ≥ t 0   o t h e r w i s e B_{i,j}=\left\{\begin{matrix} 1 ,if\, P_{i,j} \ge t\\ 0\, otherwise \end{matrix}\right. Bi,j={ 1,ifPi,jt0otherwise

上式中 t t t是预定义的阈值, i , j i,j i,j表示的图中像素的坐标。

可微分二值化:从公式可以看出标准二值化是不可微的,因此使用标准二值化在网络的训练中不能直接对其进行优化。作者提出了可微分二值化运算:

B i , j ^ = 1 1 + e − k ( P i , j − T i , j ) \hat{B_{i,j}}=\frac{1}{1+e^{-k(P_{i,j}-T_{i,j})}} Bi,j^=1+ek(Pi,jTi,j)1

B i , j ^ \hat{B_{i,j}} Bi,j^是近似二值化的值, T T T是网络学习得到的自适应阈值, k k

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值