1 Tesseract简单介绍
1.1 起源
Tesseract项目最初由惠普实验室支持,1996年被移植到Windows上,1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在,都由Google公司开发。
1.2 特性
目前,Tesseract可以识别超过100种语言。也可以用来训练其它的语言。
源码包提供了一个OCR的引擎——libtesseract以及一个命令行程序——tesseract。
Tesseract支持多种输出格式,如:普通文本、html、pdf等。
2 下载&依赖
2.1 下载链接
http://tesseract.gg/
2.2 其他依赖
- png,jepg,tiff 图像格式解析基础库
- leptonica图像处理开发库
- tesseract 光学字符识别核心开发库
- tessdata 识别用的已训练数据集
3 安装
3.1 安装方法1
Linux自带Tesseract的源程序包。在Linux本地安装步骤如下。
- 下载图像格式依赖
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg8-dev
sudo apt-get install libtiff5-dev