Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。 Tesseract最初由HP公司开发,后来由Google维护。
大部分人都是希望能把自己的字库放在Tesseract调用,做成自己的开发包。网上找了很久,在C++环境下,中文字库或者其他的字库该怎么调用。大部分人云亦云,说不得不清不楚,因此这里特别给出。
一、下载Tesseract-ocr3.02库的中文字库,(地址https://download.youkuaiyun.com/download/pingdenghuli/10510421 )
Tesseract-ocr3.02里面默认带着eng英文字库,中文字库需要自己下载,因此特意把所有文件打包(chi+eng+vs2013配置使用文件,有积分的支持一下,没有积分的发邮箱在评论,发给你)
二、新建工程文件photo1