OCR识别系列之一-----场景文字识别

程序小K

已于 2023-04-14 11:24:24 修改

阅读量1.2k

点赞数 1

分类专栏： OCR 文章标签：算法深度学习计算机视觉 OCR

于 2023-04-14 11:23:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wangmengmeng99/article/details/129994349

版权

OCR 专栏收录该内容

8 篇文章

订阅专栏

另一种方法应用比较广的就是深度学习方法，深度学习方法是将OCR识别划分为文字检测和文本识别部分

，这也是深度学习技术可以充分发挥功效的地方。使用比较广泛的网络结构是Differentiable Binarization+ CRNN。

Differentiable Binarization简称DB，是一种基于分割的文本检测算法。在文本检测算法中，基于分割的检测算法可以更好的处理弯曲等不规则形状的文本，因此往往能取得更好的检测效果。但是分割法后处理步骤中将分割结果转化为检测框的流程十分复杂，而且耗时严重，因此有人提出了一个可微的二值化模块（Differentiable Binarization），它可以在分割网络中执行二值化过程。将二值化阈值加入训练中学习，它将分割方法生成的概率图转换为文本的包围框/区域。分割网络结合DB模块进行优化，可以自适应设置二值化阈值，不仅简化了后处理，而且提高了文本检测的性能。可以获得更准确的检测边界，从而简化后处理的流程。主干网采用ResNet-18。

如图2所示(蓝色箭头所示):首先，设置一个固定的阈值，将分割网络产生的概率图转换为二值图像;

然后，使用一些启发式技术(如像素聚类)将像素分组到文本实例中。或者，我们的管道(图2中红色箭头所示)旨在将二值化操作插入分割网络中进行联合优化。通过这种方法，可以自适应预测图像中每个位置的阈值，从而充分区分前景和背景像素。然而，标准的二值化函数是不可微的，我们提出了一个近似的二值化函数，称为可微二值化(DB)，当它与分割网络一起训练时是完全可微的。

通过结合简单的语义分割网络和DB模块，得到了一种鲁棒快速的场景文本检测器。

博客等级

码龄12年

163
原创

718
点赞

1796
收藏

5060
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: OCR识别系列之一-----文档字符识别

下一篇：: 如何将labelImg打包成exe

最新评论

OCR标注方法
程序小K: 你可以百度一下转写这个词，会有解释的
OCR标注方法
黑洞7: 请问一下，里面说的“转写”怎么理解？
UserWarning: Error checking compiler version for cl: [WinError 2] 系统找不到指定的文件。
weixin_57115427: 注意是在环境变量的Path选项，再新建一下之后保存。另外要关闭现有命令行，重新打开，再输入 where cl，检查是否路径设置成功。
python工程打包成可执行文件
程序小K: 无控制台窗口模式，导致需要命令行输入时无法执行并报错。解决办法，使用打包命令pyinstaller -F -c xxx.py(-c参数使用控制台子系统执行,默认方式)。
python工程打包成可执行文件
溪夏丿陌炎: 加了第五步，报错Failed to execute script 'main' due to unhandled exception:input0: lost sys.stdin。下面是具体信息：File "main.py", line 3, in <module>from ui.train window import TrainWindowFile "<frozen importlib, bootstrap>", line 991, in find and l.File "<frozen importlib, bootstrap>", line 975, in find and File "<frozen importlib, bootstrap>", line 671, in load unlo(File "Pylnstaller\loaderipyimod02 importers.py", line 384, inFile "uiltrain _window,py", line 127, in smodule>input('Press Enter to exit...")RuntimeError: inputO: lost sys.stdin

大家在看

ck-editor5的研究（2）：对 CKEditor5 进行设计，并封装成一个可用的 vue 组件 339

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序小K 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。