tesseract安装+环境配置 windows实测

最新推荐文章于 2025-07-11 10:00:59 发布

cool_soup29

最新推荐文章于 2025-07-11 10:00:59 发布

阅读量734

点赞数

CC 4.0 BY-SA版权

分类专栏：笔记文章标签：图像识别 python3

本文链接：https://blog.youkuaiyun.com/cool_soup29/article/details/86215426

笔记专栏收录该内容

42 篇文章

订阅专栏

本文详细介绍了Tesseract OCR的安装步骤，包括下载安装包、设置环境变量、检查安装是否成功以及语言库的下载方法。关键在于环境变量的正确配置，确保绝对路径不包含中文字符。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

下载tesseract安装包:
一路next,中间有一个安装语言库的可勾选下载
最关键的是环境变量的设置：

绝对路径不能带有中文，不然报错的，所以文件啥的命名不要带有中文
设置环境变量，不仅仅要在path中添加Tesseract-ORC文件夹的绝对路径
划重点!!!还要单独新建一个环境变量，最好两个都新建，用户的环境变量和系统环境变量
名字:TESSDATA_PREFIX
路径是:Tesseract-ORC下的tessData文件夹

检查是否安装成功:

cmd界面下:tesseract -v # 查看版本命令
查看语言库，tesseract --list-langs # 如果报错，请重新启动cmd，或者检查上面第三点是否做好了
语言库下载,官方在github可以下载

    https://github.com/tesseract-ocr/tessdata_best/tree/master/script

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cool_soup29

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【逐步实操】Tesseract OCR 最新版本安装教程（Windows）+ 图片PDF转WORD实操

weixin_45666317的博客

05-30

1万+

在文本挖掘领域，少不了对PDF文件进行处理的，其中有不少PDF里面可能是单纯的图片，这个时候就需要采用OCR技术进行图像文字识别。今天发布一版将图片PDF转为WORD文字的教程，首先需要安装并且配置好Tesseract OCR工具。下面展开详细教程。

Tesseract 安装与环境变量配置

weixin_36489704的博客

06-23

2625

变量值为：E:\Program Files (x86)\Tesseract-OCR\tessdata（再上面的文件路径后加\tessdata）我安装的是 tesseract-ocr-w64-setup-5.3.3.20231005.exe。输入tesseract会有相关命令提示。输入 tesseract -v。记得将安装文件地址复制下来。2.安装Tesseract。

参与评论您还未登录，请先登录后发表或查看评论

Windows环境安装tesseract-ocr 4.00并配置环境变量

weixin_30756499的博客

02-23

180

第一步：官方安装包下载地址：download 因为只包含英文语言包，如果需要其他语言包下载地址：download the appropriate training data 并将语言包解压至tessdata目录。最常用的简体字识别包：https://raw.githubusercontent.com/tesseract-ocr/tes...

Tesseract安装步骤及环境配置

qq_62475475的博客

07-11

702

Tesseract 安装教程、环境配置

Windows下的Tesseract的配置安装与使用

欧世乐

11-04

3624

1.下载Tesseract安装包大家可以去官网下载，也可以上软件园下载，主要看速度了。这里提供了我的网盘供大家下载：链接: https://pan.baidu.com/s/1oEsV-ORJ75y1SsMpPN6Nog 提取码: ju4w 2.安装一直按next就行了，因为无法连接到Tesseract的服务器，所以无法在安装的时候选择下载多语言，有需要的话可以在网上额外下载，这里先不考虑。...

windows安装tesseract

wangwenzhe的博客

05-08

530

安装勾选自动下载语言包。

安装 tesseract

engchina的专栏

07-06

637

安装 tesseract

qt+tesseract的windows64位编译版本

05-17

tesseract的编译文件，可用于qt在windows上进行开发

TesseractOCR-安装包+语言包+训练器+训练器环境（C++）（windows）

02-07

Tesseract OCR为Windows用户提供了高效便捷的OCR解决方案，通过使用预编译的二进制文件、安装必要的Java环境和训练工具，可以轻松实现文字的识别功能。而对于开发者而言，掌握在C++中调用Tesseract的能力，则可以...

opencv+tesseract+QT实践篇.docx

08-24

环境配置包括安装 OpenCV、Tesseract 和 Qt。安装完成后，需要将环境变量添加到系统中。二、设计 UI 使用 Qt Designer 设计一个简单的 UI 界面，包括一个按钮和一个标签。按钮用于选择图片文件，标签用于显示识别...

gosseract：使用Tesseract C ++库的OCR（光学字符识别）软件包

02-04

使用Tesseract C ++库的Golang OCR软件包。 OCR服务器您是否只需要OCR服务器，或查看此软件包的工作示例？是的，已经有现成的服务器应用程序，非常易于部署！ :backhand_index_pointing_right: 例 package ...

tesseract-OCR GUI版本-Windows版本

09-27

tesseract-OCR识别开源项目的GUI版本，Java编写，此版本是windows版本

tesseract安装及配置

shirley的专栏

09-17

3631

1. 安装tesseract OCR，即Optical Character Recognition，光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说，它们都是一些不规则的字符，这些字符确实是由字符稍加扭曲变换得到的内容。 tesseract下载地址：https://digi.bib.uni-mannheim.de/tesseract/ 下载完成后双击，此时会出现如下图所示的页面。此时可以勾选Additional language data(downlo

Tesseract配置参数详解及适用场景（PyTesseract进行OCR）

qq_37292005的博客

06-06

1766

在使用 PyTesseract 进行 OCR 时，合理配置参数是提高识别准确率的关键。以下是 Tesseract 常用参数的详细解释和适用场景

tesseract的安装和环境配置

qq_39138295的博客

04-09

1678

下载网址：https://digi.bib.uni-mannheim.de/tesseract/ 选择适合自己的版本，带dev的是测试版的，不带的是稳定版的。选择好之后，下载完毕之后，一路next安装，在选择语言的时候，根据自己需求来选择。完成之后，配置环境变量。将安装目录：F:\tesseract\Tesseract-OCR添加到环境变量之中。验证是否安装成功。打开cm...

Tesseract 安装与配置及验证码识别

qq_41946216的博客

04-07

2865

Tesseract 的使用，需要环境的支持，以实现简单的转换和训练。

QT6.8.1、OpenCV4.10、tesseract的配置与使用（CMake）

weixin_44351720的博客

01-18

2349

名称版本11QT6.8.1OpenCV4.10VS2022。

vs2013+tesseract配置

zhulingling329的博客

12-28

1545

（大部分乃转载http://blog.youkuaiyun.com/suninsky_plate/article/details/52820800，按照这个过程中间回出现一些问题，将修改方法指明）编译在C盘创建一个文件夹叫tesseract-build 切换到该文件夹下，输入下面命令 git clone https://github.com/charlesw/tesseract-vs20

Tesseract OCR 安装和配置指南

gitblog_09369的博客

09-13

1439

Tesseract OCR 安装和配置指南 1. 项目基础介绍和主要编程语言项目基础介绍 Tesseract OCR 是一个开源的光学字符识别（OCR）引擎，最初由惠普实验室开发，后来在2005年被开源。Tesseract 4 引入了基于神经网络（LSTM）的新 OCR 引擎，专注于行识别，同时仍然支持 Tesseract 3 的旧版 OCR 引擎。Tesseract 支持多种语言的识别，并且可...

from PIL import Image import pytesseract if __name__ == '__main__': # 加载图片 file_path = '0II_1.jpg' image = Image.open(file_path) text = pytesseract.image_to_string(image, lang='chi_sim') print(text)

最新发布

08-09

<think>我们使用PIL打开图片，然后使用pytesseract进行识别。对于中文识别，需要指定语言参数为'chi_sim'（简体中文）。同时，确保已经安装了中文语言包。步骤： 1. 安装必要的库：Pillow（PIL）和pytesseract。 2. 安装Tesseract-OCR引擎，并下载中文语言包。 3. 在代码中，使用PIL的Image.open打开图片文件。 4. 使用pytesseract.image_to_string函数，传入图片对象和语言参数。注意：如果识别效果不好，可以尝试对图片进行预处理（如二值化、降噪等）以提高识别准确率。示例代码： ```python from PIL import Image import pytesseract # 指定tesseract.exe的路径（如果环境变量中已添加，则不需要这行） # pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_tesseract_executable>' # 打开图片 image = Image.open('your_image.jpg') # 替换为你的图片路径 # 识别中文文本 text = pytesseract.image_to_string(image, lang='chi_sim') print(text) ``` 如果识别效果不佳，可以尝试对图像进行预处理。例如，将图像转换为灰度图，然后二值化： ```python image = Image.open('your_image.jpg') # 转换为灰度图 image = image.convert('L') # 二值化，阈值可以根据情况调整 threshold = 140 image = image.point(lambda p: p > threshold and 255) # 然后进行识别 text = pytesseract.image_to_string(image, lang='chi_sim') print(text) ``` 另外，pytesseract还支持配置参数，例如设置识别模式（psm）。例如，设置psm为3（全自动识别，但无方向检测）： ```python text = pytesseract.image_to_string(image, lang='chi_sim', config='--psm 3') ``` 关于psm参数： 0 = Orientation and script detection (OSD) only. 1 = Automatic page segmentation with OSD. 2 = Automatic page segmentation, but no OSD, or OCR. 3 = Fully automatic page segmentation, but no OSD. (Default) 4 = Assume a single column of text of variable sizes. 5 = Assume a single uniform block of vertically aligned text. 6 = Assume a single uniform block of text. 7 = Treat the image as a single text line. 8 = Treat the image as a single word. 9 = Treat the image as a single word in a circle. 10 = Treat the image as a single character. 根据图片情况选择合适的psm模式。如果遇到问题，请检查： 1. Tesseract-OCR是否正确安装，并且路径已添加到环境变量（或者代码中指定了路径）。 2. 中文语言包是否已安装（在Tesseract-OCR的安装目录下的tessdata文件夹中应有chi_sim.traineddata文件）。 3. 图片路径是否正确。参考文献： [^1]: 介绍了使用PIL和pytesseract识别验证码，但指出复杂验证码需要进一步处理。 [^2]: 提到了安装PIL和pytesseract，以及Tesseract-OCR引擎。 [^3]: 给出了一个使用pytesseract识别中文文本的示例。 [^4]: 展示了识别验证码图片的代码，并指定了psm参数。 [^5]: 提供了简单的代码示例，用于从图片中提取中文文字。根据以上信息，我们编写了上述代码示例。 §§相关问题§§ 1. 如何提高pytesseract识别中文的准确率？ 2. 除了pytesseract，还有哪些OCR库可以识别中文？ 3. 如何对图片进行预处理以优化OCR识别效果？ 4. Tesseract-OCR如何安装中文语言包？ 5. 在哪些情况下需要设置pytesseract的psm参数？如何选择？</think>### 使用PIL和pytesseract识别中文文本的完整指南 #### 核心步骤： 1. **环境准备**： ```bash pip install Pillow pytesseract ``` 2. **安装OCR引擎**： - 下载[Tesseract-OCR](https://github.com/tesseract-ocr/tesseract) - 安装中文语言包：`chi_sim`（简体中文）和/或`chi_tra`（繁体中文） 3. **基础识别代码**： ```python from PIL import Image import pytesseract # 设置Tesseract路径（如果已添加环境变量可省略） # pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' # Windows示例 # 打开图片并识别中文 image = Image.open('chinese_text.png') text = pytesseract.image_to_string( image, lang='chi_sim', # 简体中文 config='--psm 3' # 页面分割模式 ) print("识别结果：", text) ``` #### 提高准确率的技巧： 1. **图像预处理**： ```python # 转换为灰度图 + 二值化 image = Image.open('chinese_text.png').convert('L') threshold = 150 image = image.point(lambda p: p > threshold and 255) ``` 2. **参数优化组合**： ```python text = pytesseract.image_to_string( image, lang='chi_sim+eng', # 中英混合识别 config='--psm 6 -c preserve_interword_spaces=1' ) ``` 3. **区域识别**（针对特定区域）： ```python # 定义识别区域 (left, upper, right, lower) roi = (100, 200, 400, 300) cropped_img = image.crop(roi) text = pytesseract.image_to_string(cropped_img, lang='chi_sim') ``` #### 常见问题解决： - **乱码问题**：检查是否安装了正确的中文语言包 - **识别率低**： - 尝试不同的`psm`模式（3-6常用于多行文本） - 增加图像分辨率（建议300dpi以上） - 使用`config='--oem 3'`启用LSTM引擎 - **中英混合识别**：`lang='chi_sim+eng'` > 实测建议：对于复杂背景图片，推荐先用OpenCV进行降噪处理再识别[^5]