Tesseract OCR识别小结

由于业务场景需要,需要接入OCR图像识别功能,记录一下经过几天的研究过程。

1、项目主页

http://code.google.com/p/tesseract-ocr/

基本上涵盖了所有内容,download、wiki尤其重要,上面有许多知识


2、安装

http://code.google.com/p/tesseract-ocr/downloads/list下载exe安装程序安装即可;


3、字库训练

由于OCR识别必须要有字库,google提供了需要语言的字库,在download页面中,用于识别中文的字库tesseract-ocr-3.02.chi_sim.tar.gz非常不好用,识别率极低,因此需要自建字库训练。

具体流程如下:

(3-1)生成tif+box模板;

tif为字库图片,本文模板:vie.arial.exp0.tif,见附件;

box文件为字库描述文件,本文模板:vie.arial.exp0.box,格式为:

0 102 4857 122 4889 0
1 134 4857 147 4889 0

2 159 4857 180 4889 0

3 188 4857 205 4889 0

box文件会划定一个图片的矩形区域,指明其描述的含义ÿ

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值