本文从被关闭的liveSpace转移过来的。http://joson-liu.spaces.live.com/blog/cns!281F0B4416874662!158.entry
项目地址:http://code.google.com/p/tesseract-ocr/
项目说明:An OCR Engine that was developed at HP Labs between 1985 and 1995... and now at Google
研究缘由:最近做纸币系列号识别,项目进展还行,最近都在做网络训练,识别率也有90%以上,由于所取特征不足,有些字符识别效果不稳定,更有的就是由于硬件平台限制,字符效果太差。这个项目很有代表性,性能非常不错,而且是开源,现在是由Google的人在维护,因此这个项目是非常优秀的研究对象。
项目入门:http://code.google.com/p/tesseract-ocr/wiki/Documentation 这里有Google工程师的几篇分析文章(非常敬佩人家的奉献精神,在此感叹下。),这应该是想要了解此项目最好的文档。
之后还有就是啃代码了,这是我开始不久的阶段,还没法多说。最近在项目下载那里也有tessdoc-html-3.0.0-preview1.tar.gz 这个代码说明下载,对研究此项目应该很有帮助。
网上还一些使用此项目作为OCR引擎,如Tessnet2 a .NET 2.0 Open Source OCR assembly using Tesseract engine(http://www.pixel-technology.com/freeware/tessnet2/)。这对于我们快速理清tesseract-ocr的开发很有帮助。
------这算是我的tesseract-ocr入门介绍,工作之余继续研究此项目,等有些结果再分享。