dbnet 论文

Mr.Q

已于 2023-04-06 17:33:04 修改

阅读量1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： OCR 文章标签：深度学习 OCR

于 2022-05-04 17:24:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/jizhidexiaoming/article/details/124469439

OCR 专栏收录该内容

12 篇文章

订阅专栏

这篇论文介绍了一种实时且精确的文本检测方法DBNet，它避免了传统方法繁琐的后处理，通过端到端训练直接输出二值化图，同时能自适应地学习阈值图。DBNet的核心在于其可微分二值化模块，实现了高效准确的文本识别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

2. 做什么的

4. 怎么做到这么厉害

1. 论文

https://arxiv.org/abs/1911.08947

2. 做什么的

该论文提出一种实时的、场景文本检测方法。支持不同方向、多种形状的文本。

3. 多厉害

简单四个字：又快有准。

（1）快：如上图，蓝色线是大多数已有方法的流程，分割网络得到segmentation概率图，借个后处理方法进行聚类，再进行固定阈值二值化，而这些后处理方法基本都是耗时的。dbnet没有这些复杂耗时的后处理，直接端对端训练输出，输出的就是binarization二值化图（如红色实线部分所示）；

（2）准：网络会输出一张分割图之外，还会自动学习出一张对应的阈值图（即图中每个像素位置的阈值都是变化的，自适应的，这个牛批很），该阈值图可对分割图上每一个像素进行针对性的二值化。

4. 怎么做到这么厉害

核心就是提出了DBnet模块，该模块的作用就是学习一个阈值图即图中每个像素位置的阈值都是变化的），对分割图上每一个像素进行针对性的二值化。该模块的全称是Differentiable Binarization（DB），即可微分的二值化。

正常的二值化函数是不可倒的，不可微分的，作者提出的可微分二值化使得此DB模块可参与训练，通过网络学习出一个自适应的阈值图。

5. 框架细节

5.1 论文中框架结构

5.2 resnet + fpn结构

5.3 shufflenetv2 + fpn结构

5.3.1 shufflenetV2

shufflenetv2的基本组件，逆残差块，其实就是改变了形状的残差块。

shufflenetv2

6. loss

7. 可视化标注信息

img：原图

dilated：膨胀后的文本区域；

shrink：压缩后的文本区域；

thresh_map：dilated - shrink获取文本边界区域；

training_mask：黑色区域不参与训练。只有白色区域参与训练。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Mr.Q 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。