文字切割算法-基于投影的切割

最新推荐文章于 2021-11-14 20:31:26 发布

原创最新推荐文章于 2021-11-14 20:31:26 发布 · 1.6w 阅读

·

13

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#ocr #文字识别 #切割算法 #投影切割

本文介绍了一种基于传统横纵投影的文字切割算法，并使用Java与Python实现。算法首先通过横向扫描定位每一行文字，然后纵向扫描进一步分割出单个字符。虽然此方法对数字识别效果较好，但对汉字识别仍存在问题。

前言：

文字识别的关键之所在就是单个文字的切割，切割的准确度极大的影响了文字识别的正确率。本文基于传统横纵投影的思想对文字进行切割，使用java与python实现了本算法。

基本思路：

1、横向扫描，切出每一行

2、对每一行进行纵向扫描，得出每一个字

经过对原始图像的相关处理，得出如下二值图（仅有黑白色）。这里的‘相关处理’是很复杂的，涉及图像学相关知识，我是通过opencv进行处理的。本文主要对切割算法进行讨论，图片处理部分望读者自行了解。

（待切割图）

横向扫描

横向扫描就是依次从左往右统计，得出这一行黑色点的数量。比如上图尺寸为1200*430，经过横向扫描就可以得到430个数值，这个数值表示在1200个点中黑色点的数量。我们把这430个数直观的展示出来，可以得到下图：

（横向切割统计图，x：行数 y：黑色点数）

在上图中，y轴数值不为0的区域就是文字存在的地方，为0的区域就是每行之间相隔的距离。我们通过如下规则就可以找出每一行文字的起始点和终止点，以定位该行文字区域：1、如果前一个数为0，则记录第一个不为0的坐标；2、如果前一个数不为0，则记录第一个为0的坐标。形象的说就是从出现第一个非空白行（开始有字）到出现第一个空白行（没有字）这段区域就是文字存在的区域。

（横向切割说明图）

纵向扫描

纵向扫描与横向扫描同理。针对横向扫描切割出的区域，进行纵向扫描，得出每一个字。

我们对横向扫描得出的第一行进行纵向扫描，可以得到1200个数值，如下图：

（横向切割统计图，x：行数 y：黑色点数省略了部分区域）

再运用横向扫描的思维，对纵向扫描的数据进行切割，就可以得出单个文字了。

切割结果

（切割结果）

可以看到切割结果有些不理想，会存在很多连在一起的字。

结果分析

算法对于数字切割十分理想，但是对于汉字会存在切割失败的现象。分析发现部分汉字两两之间没有空白区域，是连在一起的，所以纵向扫描算法就无法准确切割。如下图所示：

所以直接使用投影进行切割，这种方法是不可行的。我们需要对该算法进行优化，以便得出更为准确的结果。优化算法敬请期待下篇（文字切割算法-投影切割优化）。

项目源码：我的github（https://github.com/printlin/tmOcr/tree/master）

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。