tesseract-ocr 入门介绍 (一)

最新推荐文章于 2025-10-12 22:24:35 发布

原创最新推荐文章于 2025-10-12 22:24:35 发布 · 1.9k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#assembly #google #引擎 #.net #文档 #工作

tesseract-ocr 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了由HP实验室开发并现由Google维护的Tesseract OCR引擎。该引擎开源且性能优秀，适用于纸币系列号识别等场景。文中提供了项目地址、入门指南及一些基于此引擎的应用实例。

本文从被关闭的liveSpace转移过来的。http://joson-liu.spaces.live.com/blog/cns!281F0B4416874662!158.entry

项目地址：http://code.google.com/p/tesseract-ocr/

项目说明：An OCR Engine that was developed at HP Labs between 1985 and 1995... and now at Google

研究缘由：最近做纸币系列号识别，项目进展还行，最近都在做网络训练，识别率也有90%以上，由于所取特征不足，有些字符识别效果不稳定，更有的就是由于硬件平台限制，字符效果太差。这个项目很有代表性，性能非常不错，而且是开源，现在是由Google的人在维护，因此这个项目是非常优秀的研究对象。

项目入门：http://code.google.com/p/tesseract-ocr/wiki/Documentation 这里有Google工程师的几篇分析文章（非常敬佩人家的奉献精神，在此感叹下。），这应该是想要了解此项目最好的文档。

之后还有就是啃代码了，这是我开始不久的阶段，还没法多说。最近在项目下载那里也有tessdoc-html-3.0.0-preview1.tar.gz 这个代码说明下载，对研究此项目应该很有帮助。

网上还一些使用此项目作为OCR引擎，如Tessnet2 a .NET 2.0 Open Source OCR assembly using Tesseract engine（http://www.pixel-technology.com/freeware/tessnet2/）。这对于我们快速理清tesseract-ocr的开发很有帮助。

------这算是我的tesseract-ocr入门介绍，工作之余继续研究此项目，等有些结果再分享。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。