目录
1. 论文
https://arxiv.org/abs/1911.08947
2. 做什么的
该论文提出一种实时的、场景文本检测方法。支持不同方向、多种形状的文本。
3. 多厉害
简单四个字:又快有准。
(1)快:如上图,蓝色线是大多数已有方法的流程,分割网络得到segmentation概率图,借个后处理方法进行聚类,再进行固定阈值二值化,而这些后处理方法基本都是耗时的。dbnet没有这些复杂耗时的后处理,直接端对端训练输出,输出的就是binarization二值化图(如红色实线部分所示);
(2)准:网络会输出一张分割图之外,还会自动学习出一张对应的阈值图(即图中每个像素位置的阈值都是变化的,自适应的,这个牛批很),该阈值图可对分割图上每一个像素进行针对性的二值化。
4. 怎么做到这么厉害
核心就是提出了DBnet模块,该模块的作用就是学习一个阈值图即图中每个像素位置的阈值都是变化的),对分割图上每一个像素进行针对性的二值化。该模块的全称是Differentiable Binarization(DB),即可微分的二值化。
正常的二值化函数是不可倒的,不可微分的,作者提出的可微分二值化使得此DB模块可参与训练,通过网络学习出一个自适应的阈值图。
5. 框架细节
5.1 论文中框架结构
5.2 resnet + fpn结构
5.3 shufflenetv2 + fpn结构
5.3.1 shufflenetV2
shufflenetv2的基本组件,逆残差块,其实就是改变了形状的残差块。
shufflenetv2
6. loss
7. 可视化标注信息
img:原图
dilated:膨胀后的文本区域;
shrink:压缩后的文本区域;
thresh_map:dilated - shrink获取文本边界区域;
training_mask:黑色区域不参与训练。只有白色区域参与训练。