Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。 Tesseract最初由HP公司开发,后来由Google维护。
鉴于本文面向于C++代码开发者,大家比较关心该引擎能否被C++调用,因此第一节着重于Tesseract在VS 2013中的配置以及调用,以下是Tesseract的配置步骤。
一、下载Tesseract-ocr3.02库(地址 https://download.youkuaiyun.com/download/pingdenghuli/10505867 )
网上有一些调用安装步骤,好多都缺了点什么,因此特意把所有文件打包(有积分的支持一下)
里面包括dll、include和lib三个目录,其中include包含tesseract,leptonica两个文件夹,tesseract就是大名鼎鼎的OCR识别软件,leptonica看上去不起眼,但他是C++的图像库,没有它读取图像,tesseract是无法工作的。在git里下载的Tesseract-ocr3.02文件是不包含leptonica库的,这就是好多人配置非常困难的原因(其他人怎么样不知道,这个问题足足困扰了我一天)
二、新建工程文件photo1