linux下安装tesseract-ocr

本文提供了一套详细的步骤指南,在Ubuntu系统中自动安装并配置Tesseract OCR,包括使用apt-get方法、手动编译安装所需依赖包、下载特定版本的Tesseract和Leptonica库,以及最终验证安装成功的测试过程。

1. 在ubuntu下可以自动安装  

 sudo apt-get install tesseract-ocr

2.编译安装

    a.编译环境: gcc gcc-c++ make(这个环境一般机器都具备,可以忽略)   

yum install gcc gcc-c++ make


    b.安装tesseract-ocr编译必须的包

yum/apt-get install autoconf automake libtool


    c.增加图像解析需要的包,可以按照指定的格式选择包

yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel

    ubuntu

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev

    d.下载 leptonica 包: http://www.leptonica.org/source/leptonica-1.71.tar.gz
wget http://www.leptonica.org/source/leptonica-1.71.tar.gz
tar -zxvf ...
./configure
make
make install


需要注意,leptonica的版本问题

3.01 requires at least v1.67 of Leptonica.
3.02 requires at least v1.69 of Leptonica. (Both available in Ubuntu 12.04 Precise Pangolin.)
3.03 requires at least v1.70 of Leptonica. (Both available in Ubuntu 14.04 Trusty Tahr.)

如果版本不一致,会出现问题如下:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Error in findTiffCompression: function not present
Error in pixReadStreamTiff: function not present
Error in pixReadStream: tiff: no pix returned
Error in pixRead: pix not read
Unsupported image type.


    e.下载 tesseract-3.02 安装包: http://tesseract-ocr.googlecode.com/files/tesseract-3.02.02.tar.gz

wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz
./autogen.sh
./configure
make
make install
ldconfig

    f.下载 tesseract-3.02 英文语言包: http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.eng.tar.gz,解压后将 tesseract-ocr/tessdata 下的所有文件全部拷贝到 /usr/local/share/tessdata 下。



     测试

tesseract phototest.tif phototest -l eng
这时应该在当前目录生成一个 phototest.txt 文本文件,内容就是 phototest.tif 显示的文字.

### 在Linux系统上安装配置Tesseract-OCR #### 使用YUM包管理器安装Tesseract-OCR 对于基于Red Hat的发行版,如CentOS或Fedora,可以使用`yum`来快速安装Tesseract OCR及其开发库。默认情况下,通过这种方式安装的是版本5.3.0[^1]。 ```bash sudo yum install -y tesseract tesseract-devel ``` 这一步骤会自动处理依赖关系并完成软件的部署工作。 #### 升级已有的Tesseract-OCR安装 如果需要更新现有的Tesseract至最新版本,在执行上述命令之前可以通过搜索功能确认可用的更新: ```bash yum search tesseract yum install tesseract.x86_64 -y ``` 为了使Python程序能够调用Tesseract的功能,还需要额外安装Pytesseract模块以及任何必要的Python绑定: ```bash pip3 install pytesseract ``` 以上操作适用于希望简化流程而不必手动编译源码的情况[^2]。 #### 手动下载特定版本的Tesseract-OCR 当有特殊需求时可以选择指定版本的手动安装方式。可以从GitHub上的官方发布页面获取所需版本的压缩文件,并按照指示解压和构建项目。例如,要下载4.0.0版本可采用如下wget指令: ```bash wget https://github.com/tesseract-ocr/tesseract/archive/4.0.0.tar.gz tar -xf 4.0.0.tar.gz cd tesseract-4.0.0/ ./autogen.sh && ./configure && make && sudo make install ``` 同时记得也需单独下载Leptonica图像处理库以支持完整的OCR能力[^3]。 #### 获取最新的稳定版二进制文件 访问[Tesseract GitHub Releases](https://github.com/tesseract-ocr/tesseract/releases)[^4] 页面可以直接找到预编译好的二进制分发包链接,适合那些想要尝试最前沿特性的用户群体。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值