tesseract-ocr 入门介绍 (一)

本文从被关闭的liveSpace转移过来的。http://joson-liu.spaces.live.com/blog/cns!281F0B4416874662!158.entry

 

项目地址:http://code.google.com/p/tesseract-ocr/ 

项目说明:An OCR Engine that was developed at HP Labs between 1985 and 1995... and now at Google

研究缘由:最近做纸币系列号识别,项目进展还行,最近都在做网络训练,识别率也有90%以上,由于所取特征不足,有些字符识别效果不稳定,更有的就是由于硬件平台限制,字符效果太差。这个项目很有代表性,性能非常不错,而且是开源,现在是由Google的人在维护,因此这个项目是非常优秀的研究对象。

项目入门:http://code.google.com/p/tesseract-ocr/wiki/Documentation 这里有Google工程师的几篇分析文章(非常敬佩人家的奉献精神,在此感叹下。),这应该是想要了解此项目最好的文档。

之后还有就是啃代码了,这是我开始不久的阶段,还没法多说。最近在项目下载那里也有tessdoc-html-3.0.0-preview1.tar.gz 这个代码说明下载,对研究此项目应该很有帮助。

网上还一些使用此项目作为OCR引擎,如Tessnet2 a .NET 2.0 Open Source OCR assembly using Tesseract engine(http://www.pixel-technology.com/freeware/tessnet2/)。这对于我们快速理清tesseract-ocr的开发很有帮助。

------这算是我的tesseract-ocr入门介绍,工作之余继续研究此项目,等有些结果再分享。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值