目录
前言
Java 中实现 OCR(光学字符识别)功能,可以使用 Tesseract OCR,这是一个开源的 OCR 引擎,支持多种语言,并且可以在 Java 中通过 Tesseract API 进行集成。
官网GitHub : Releases · tesseract-ocr/tesseract · GitHub

环境安装
Windows安装
Windows版本本地安装过程中,记得勾选中文语言包

一路next 后,安装成功,进入安装目录, 输入命令
tesseract --list-langs
查看支持的语言

其他语言参考:tesseract语言库
Linux安装
Tesseract必须使用Leptonica库来打开输入图像,所以需要下载,安装,使用内置支持zlib、png和tiff(用于多页tiff)的leptonica。
1、安装包准备
Tesseract OCR 和 Leptonica 是两个紧密相关的开源项目。Tesseract 依赖于 Leptonica 进行图像处理,因此它们的版本需要兼容。以下是 Tesseract 和 Leptonica 的版本对应关系,以及如何选择合适的版本:

对应版本内容可以查看 Tesseract官方GitHub 查看,
这里使用 Tesseract 5.5.0 和 Leptonica 1.83.1 版本
进入服务器,创建software文件夹
# mkdir /usr/local/software
# cd /usr/local/software
到官网地址
下载后上传依赖包,有梯子的可以直接使用 wget 命令下载
# wget https://github.com/tesseract-ocr/tesseract/archive/refs/tags/5.5.0.tar.gz
# wget https://github.com/DanBloomberg/leptonica/releases/download/1.83.1/leptonica-1.83.1.tar.gz
解压压缩包
# tar -zxvf tesseract-5.5.0.tar.gz
# tar -zxvf leptonica-1.83.1.tar.gz

2、设置编译环境
首先,确保您的Linux系统已经安装了必要的编译工具:
# yum install gcc gcc-c++ make
执行命令时报错:

解决方式可参考:“Could not resolve host: mirrorlist.centos.org; 未知的错误”
解决后,需要把 CentOS-Base.repo 设置个别名,不然依旧会优先引用
# mv CentOS-Base.repo CentOS-Base.repo.backup
# ll

处理后,再重新执行命令
# yum install gcc gcc-c++ make
升级 GCC 到 12.2.0
因为Tesseract对gcc有版本要求

查看当前版本
# gcc --version

Tesseract 5.5.0 使用 GCC 4.8.5 版本验证过了,失败!需要升级更高版本。
centos 7默认安装的版本为 gcc 4.8.5,本环境将升级至 12.2.0 (当前查询到最新版本是14.2.0 ,但安装过程中一直有各类错误,查阅现有能找到的资料,仅升级到12.2.0)
下载地址:GCC版本包
下载包后上传到服务器,并解压
# cd /usr/local/so

最低0.47元/天 解锁文章
3746

被折叠的 条评论
为什么被折叠?



