本文主要介绍Tesseract-OCR光学文字识别应用程序的下载安装、运行参数,以及gImageReader图形界面,并Ubuntu和Windows环境下演示了使用图形界面对PDF和图像文件进行文字识别的效果。主要包括以下几个方面:
- Tesseract-OCR概述
- Tesseract的下载安装
- Tesseract的运行参数
- gImageReader的图形界面
本文使用的软件版本:
- Ubuntu 20.04(focal)
- Tesseract-ocr 4.00
- gImageReader 3.3.1
1 Tesseract-OCR概述
Tesseract是一个开源文本识别(OCR)引擎,最初在1985年至1994年间由惠普实验室开发,1996年进行了一些修改后将其移植到Windows系统,1998年进行了一些C++化。2005年,惠普对Tesseract进行了开源。从2006年到2018年11月由谷歌进行开发。
Tesseract在Apache2.0许可下免