欢迎访问个人网络日志🌹🌹知行空间🌹🌹
1.基本情况
论文:Real-time Scene Text Detection with Differentiable Binarization
代码:DB
2019年11月华中科技大学的Xiang Bai等提出的方法。
基于分割的文本检测方法对分割结果的概率图进行二值化后处理,然后来提取文本区域,可以检测任意形状的文本区域。但基于分割的文本检测算法一般都需要复杂的后处理,影响推理的性能。

上图中,蓝色的路径表示传统的基于分割的文本检测,完整流程包括得到分割概率图,使用阈值二值化,然后通过像素聚类等手段得到最终的文本检测结果,红色路径是作者提出的新的方法,同时输出分割概率图和进行二值化使用的阈值图,之后使用一个可微分的二值化操作求得二值化的图像,其中虚线表示操作只发生在预测阶段,实线表示在训练和预测阶段都会发生。阅读源码可以发现,与上图中描述不同,训练阶段的二值化结果是通过可微分的二值化操作得到的,预测阶段的二值化结果仍然使用的是固定阈值来计算的。
在这篇论文中,作者主要的创新点就是提出了可微分二值化运算(Differentiable Binarization, DB),DB的引入使得在训练时可以将二值化操作放入模型中,从而实现模型的端到端训练,简化后处理,加快运算速度。
2.主要工作
2.1 模型架构

从上图中可以看到网络使用了全卷积结构,将多个尺度的特征图使用FPN直接进行融合,经过上采样得到同样大小的特征图进行concatenate拼接,经过两个分支,一个输出分割概率图,一个输出阈值图,使用这两个结果,输入到DB运算中得到近似二值图,对二值图处理得到文本区域。
2.2 二值化
记backbone提取的特征图为 F F F,表示分割结果的概率图为 P P P,阈值图为 T T T,通过 P P P和 F F F计算得到的阈值图为 B ^ \hat{B} B^。
标准二值化:给定表示分割结果的概率图 P ∈ R H × W P\in R^{H\times W} P∈RH×W, H / W H/W H/W表示图的高/宽,标准二值化操作可表示成:
B i , j = { 1 , i f P i , j ≥ t 0 o t h e r w i s e B_{i,j}=\left\{\begin{matrix} 1 ,if\, P_{i,j} \ge t\\ 0\, otherwise \end{matrix}\right. Bi,j={ 1,ifPi,j≥t0otherwise
上式中 t t t是预定义的阈值, i , j i,j i,j表示的图中像素的坐标。
可微分二值化:从公式可以看出标准二值化是不可微的,因此使用标准二值化在网络的训练中不能直接对其进行优化。作者提出了可微分二值化运算:
B i , j ^ = 1 1 + e − k ( P i , j − T i , j ) \hat{B_{i,j}}=\frac{1}{1+e^{-k(P_{i,j}-T_{i,j})}} Bi,j^=1+e−k(Pi,j−Ti,j)1
B i , j ^ \hat{B_{i,j}} Bi,j^是近似二值化的值, T T T是网络学习得到的自适应阈值, k k

本文介绍了XiangBai等人2019年提出的实时文本检测方法,重点在于DifferentiableBinarization(DB)技术,它允许模型在训练时端到端地处理二值化过程,提高了检测速度和准确性。模型包含全卷积结构,输出分割概率图和阈值图,通过可微分的二值化操作简化后处理步骤。此外,文章讨论了自适应阈值、标签生成和模型优化策略,如使用二分类交叉熵损失和L1损失函数。
最低0.47元/天 解锁文章
1125

被折叠的 条评论
为什么被折叠?



