2.基于分割的文本检测算法--DBNet

最新推荐文章于 2024-10-12 17:44:22 发布

原创

最新推荐文章于 2024-10-12 17:44:22 发布 · 870 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #深度学习 #计算机视觉

本文介绍了XiangBai等人2019年提出的实时文本检测方法，重点在于DifferentiableBinarization(DB)技术，它允许模型在训练时端到端地处理二值化过程，提高了检测速度和准确性。模型包含全卷积结构，输出分割概率图和阈值图，通过可微分的二值化操作简化后处理步骤。此外，文章讨论了自适应阈值、标签生成和模型优化策略，如使用二分类交叉熵损失和L1损失函数。

文章目录

欢迎访问个人网络日志🌹🌹知行空间🌹🌹

1.基本情况

论文:Real-time Scene Text Detection with Differentiable Binarization
代码：DB

2019年11月华中科技大学的Xiang Bai等提出的方法。

基于分割的文本检测方法对分割结果的概率图进行二值化后处理，然后来提取文本区域，可以检测任意形状的文本区域。但基于分割的文本检测算法一般都需要复杂的后处理，影响推理的性能。

在这里插入图片描述

上图中，蓝色的路径表示传统的基于分割的文本检测，完整流程包括得到分割概率图，使用阈值二值化，然后通过像素聚类等手段得到最终的文本检测结果，红色路径是作者提出的新的方法，同时输出分割概率图和进行二值化使用的阈值图，之后使用一个可微分的二值化操作求得二值化的图像，其中虚线表示操作只发生在预测阶段，实线表示在训练和预测阶段都会发生。阅读源码可以发现，与上图中描述不同，训练阶段的二值化结果是通过可微分的二值化操作得到的，预测阶段的二值化结果仍然使用的是固定阈值来计算的。

在这篇论文中，作者主要的创新点就是提出了可微分二值化运算(Differentiable Binarization， DB)，DB的引入使得在训练时可以将二值化操作放入模型中，从而实现模型的端到端训练，简化后处理，加快运算速度。