tesseract-ocr安装

 

本文档是关于linux下的tesseract-ocr安装,本教程执行环境为ubuntu 10.4

 

下载地址:https://code.google.com/p/tesseract-ocr/downloads/list

 

1.下载tesseract-ocr-3.02.02.tar.gz,并解压到目录

 

2.安装依赖的包

sudo apt-get install autoconf automake libtool

sudo apt-get install libpng12-dev

sudo apt-get install libjpeg62-dev

sudo apt-get install libtiff4-dev

sudo apt-get install zlib1g-dev

sudo apt-get install g++

sudo apt-get install libleptonica-dev

 

3.编译,进入到解压文件目录,执行以下命令

./autogen.sh

./configure

make

sudo make install

sudo ldconfig

 

4.安装语言包,下载对应的语言包,解压到目录

配置环境变量export TESSDATA_PREFIX=/some/path/to/tessdata

注意指到tessdata所在的文件夹就行了

 

 

FAQ

1.安装./configure 出现leptonica library missing.是因为缺少leptonica解决方法安装这个软件http://www.leptonica.org/

### Tesseract-OCR 安装教程及方法 Tesseract-OCR 是一个开源的光学字符识别(OCR)引擎,支持多种语言和平台。以下是其安装方法的详细说明: #### Linux 系统安装方法 在 Linux 系统上,可以通过以下命令安装 Tesseract-OCR。首先需要下载源代码并编译安装[^5]。 ```bash wget http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz tar -zxvf tesseract-3.01.tar.gz cd tesseract-3.01 ./autogen.sh ./configure make make install ldconfig ``` 如果在执行 `./configure` 时遇到缺少 `m4` 文件夹的问题,可以使用以下命令创建该文件夹: ```bash sudo mkdir m4 ``` 此外,还需要安装语言包以支持特定语言的 OCR。例如,安装英文支持包: ```bash sudo wget http://tesseract-ocr.googlecode.com/files/eng.traineddata.gz sudo gunzip eng.traineddata.gz ``` 将解压后的文件拷贝到 `/usr/local/share/tessdata` 目录下[^5]。 #### Windows 系统安装方法 对于 Windows 用户,可以下载非官方的安装包进行安装。访问以下链接下载适合的版本: [http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe](http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe)[^4]。 下载完成后直接运行安装程序,并记住安装路径。安装完成后,需要配置环境变量。假设安装路径为 `D:\Program Files (x86)\Tesseract-OCR`,则需要将此路径添加到系统的 `PATH` 环境变量中[^3]。 #### Python 集成 Tesseract-OCR 为了在 Python 中使用 Tesseract-OCR,需要安装 `pytesseract` 库。可以通过以下命令安装: ```bash pip install pytesseract ``` 同时,确保正确配置 Tesseract 的可执行文件路径。例如,在 Windows 系统中,可以修改 `pytesseract.pytesseract.tesseract_cmd` 的值为实际的 Tesseract 可执行文件路径: ```python import pytesseract pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files (x86)\Tesseract-OCR\tesseract.exe' ``` #### 测试 Tesseract-OCR 安装完成后,可以通过以下命令测试 Tesseract-OCR 是否正常工作: ```bash tesseract picture.tif test -l chi_sim ``` 上述命令会将图片 `picture.tif` 转换为文本文件 `test.txt`,并使用简体中文语言包进行识别。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值