由于业务场景需要,需要接入OCR图像识别功能,记录一下经过几天的研究过程。
1、项目主页
http://code.google.com/p/tesseract-ocr/
基本上涵盖了所有内容,download、wiki尤其重要,上面有许多知识
2、安装
http://code.google.com/p/tesseract-ocr/downloads/list下载exe安装程序安装即可;
3、字库训练
由于OCR识别必须要有字库,google提供了需要语言的字库,在download页面中,用于识别中文的字库tesseract-ocr-3.02.chi_sim.tar.gz非常不好用,识别率极低,因此需要自建字库训练。
具体流程如下:
(3-1)生成tif+box模板;
tif为字库图片,本文模板:vie.arial.exp0.tif,见附件;
box文件为字库描述文件,本文模板:vie.arial.exp0.box,格式为:
0 102 4857 122 4889 01 134 4857 147 4889 0
2 159 4857 180 4889 0
3 188 4857 205 4889 0
box文件会划定一个图片的矩形区域,指明其描述的含义ÿ