OCR识别系列之一-----场景文字识别

另一种方法应用比较广的就是深度学习方法,深度学习方法是将OCR识别划分为文字检测和文本识别部分

,这也是深度学习技术可以充分发挥功效的地方。使用比较广泛的网络结构是Differentiable Binarization+ CRNN。

Differentiable Binarization简称DB,是一种基于分割的文本检测算法。在文本检测算法中,基于分割的检测算法可以更好的处理弯曲等不规则形状的文本,因此往往能取得更好的检测效果。但是分割法后处理步骤中将分割结果转化为检测框的流程十分复杂,而且耗时严重,因此有人提出了一个可微的二值化模块(Differentiable Binarization),它可以在分割网络中执行二值化过程。将二值化阈值加入训练中学习,它将分割方法生成的概率图转换为文本的包围框/区域。分割网络结合DB模块进行优化,可以自适应设置二值化阈值,不仅简化了后处理,而且提高了文本检测的性能。可以获得更准确的检测边界,从而简化后处理的流程。主干网采用ResNet-18。

如图2所示(蓝色箭头所示):首先,设置一个固定的阈值,将分割网络产生的概率图转换为二值图像;

然后,使用一些启发式技术(如像素聚类)将像素分组到文本实例中。或者,我们的管道(图2中红色箭头所示)旨在将二值化操作插入分割网络中进行联合优化。通过这种方法,可以自适应预测图像中每个位置的阈值,从而充分区分前景和背景像素。然而,标准的二值化函数是不可微的,我们提出了一个近似的二值化函数,称为可微二值化(DB),当它与分割网络一起训练时是完全可微的。

通过结合简单的语义分割网络和DB模块,得到了一种鲁棒快速的场景文本检测器。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序小K

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值