原理解析 文字识别技术是如何实现的?
OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程
和语音识别技术一样,人们对文字识别早在50年代就已经开始,并研制出光学字符识别器。60年代出现了采用磁性墨水和特殊字体的实用机器。60年代后期,出现了多种字体和手写体文字识别机,其识别精度和机器性能都基本上能满足要求。如用于信函分拣的手写体数字识别机和印刷体英文数字识别机。70年代主要研究文字识别的基本理论和研制高性能的文字识别机,并着重于汉字识别的研究。
汉王的文字识别
像“涂书笔记”这样的工具就是利用了现在的OCR文字识别技术,这个过程一般包括图像输入、预处理等,拍照其实就是图像输入的过程,接下来对图片进行二值化处理,例如将彩色图片黑白化,分为更容易识别的前景后景信息。
对于不同的文档还需要进行噪声处理,很多时候我们排出的图片都不可避免出现倾斜这个时候也需要进行矫正处理。然后是字符切割,对于连笔的状况进行切割处理,接着就是要对单个文字进行识别,比较早有模板匹配,后来以特征提取为主,由于文字的位移,笔画的粗细,断笔,粘连,旋转等因素的影响,极大影响特征的提取的难度。
最后还会有排版、后处理以及校对等环节,看似一个拍照的过程其实中间涉及到非常多的繁琐过程,而真正识别出来的确需要很强大的技术。和语音的精准度一样,提高文字识别的精准度也是我们追求的终极目标,不过这都是实打实的技术活,“涂书笔记”也只是在现有的技术基础上提升用户体验。
//4g.zol.com.cn/439/4396880.html
4g.zol.com.cn
true
中关村在线
//4g.zol.com.cn/439/4395872.html
report
1291
原理解析 文字识别技术是如何实现的? OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程和语音识别技术一样,人们对文字识别早在50年代就已经开始,并研制出光学字符识别器。60年代出现了...