Pycharm + Anaconda 下 tesseract-ocr的安装配置

本文介绍了如何在PyCharm和Anaconda环境下安装配置tesseract-ocr。首先,从指定网站下载并安装exe文件,然后设置环境变量,包括用户环境变量和系统环境变量。接着,通过cmd使用pip安装pytesseract库,并修改相关py文件的绝对路径。最后,通过测试文件验证安装是否成功。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

步骤1:

去网站 https://digi.bib.uni-mannheim.de/tesseract/ 下载exe文件,然后一路'next',选择安装目录到指定文件夹,最后确定。

步骤2:

设置环境变量:

2.1 添加用户环境变量

2.2 添加系统环境变量

2.3 新建系统环境变量

### 配置 Tesseract-OCR 和解决 `pytesseract` 报错问题 #### 一、Tesseract-OCR安装配置 为了在 Windows 系统上成功运行 Tesseract-OCR,需完成以下操作: 1. **下载并安装 Tesseract-OCR** 访问官方网站 [https://digi.bib.uni-mannheim.de/tesseract/](https://digi.bib.uni-mannheim.de/tesseract/) 下载适合系统的最新版本(如 x64)。安装完成后,默认路径通常为 `C:\Program Files\Tesseract-OCR`。 2. **设置环境变量** 将 Tesseract-OCR 安装路径添加至系统环境变量中。具体步骤如下: - 打开“控制面板” -> “系统和安全” -> “系统” -> “高级系统设置”。 - 在“系统属性”的“高级”选项卡下点击“环境变量”。 - 编辑或新增名为 `PATH` 的变量,在其值中追加 `C:\Program Files\Tesseract-OCR`。 此外,还需定义一个新的环境变量 `TESSDATA_PREFIX`,将其值设为 `C:\Program Files\Tesseract-OCR\tessdata`[^3]。 3. **验证安装是否成功** 打开 Anaconda Prompt 或者 CMD 命令行窗口,切换到 Tesseract-OCR 安装路径下执行以下命令以确认安装无误: ```bash cd C:\Program Files\Tesseract-OCR tesseract --version ``` 如果显示 Tesseract 版本号,则说明安装正常;反之则可能未正确配置环境变量[^1]。 --- #### 二、PyCharm 中的 `pytesseract` 使用与调试 以下是针对 PyCharm 用户的具体指导: 1. **安装 `pytesseract` 库** 在项目的虚拟环境中通过 pip 工具安装依赖库: ```bash pip install pytesseract ``` 2. **修改 `pytesseract.py` 文件中的命令路径** 默认情况下,`pytesseract.py` 文件内的 `tesseract_cmd` 变量被设定为 `'tesseract'`,这表示程序会在全局范围内寻找可执行文件。如果 Tesseract-OCR 路径不在系统 PATH 中或者名称不同,则需要手动指定完整路径。例如: ```python from PIL import Image import pytesseract # 修改此行为实际的 Tesseract-OCR exe 文件位置 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' image_path = 'example.png' text = pytesseract.image_to_string(Image.open(image_path)) print(text) ``` 上述代码片段展示了如何显式声明 Tesseract 的绝对路径,从而避免因找不到命令而引发错误[^2]。 3. **处理常见报错** 若仍然遇到诸如 `"tesseract is not installed or it's not in your path"` 类型的消息,请逐一排查下列可能性: - 是否遗漏了上述提到的任何一步骤? - 当前 Python 解释器及其关联的虚拟环境是否已加载必要的模块? --- #### 三、总结注意事项 综上所述,确保整个流程顺利的关键在于精确调整软件之间的交互关系——即从操作系统层面保障 Tesseract 存取权限的同时也要让 Python 程序能够识别目标工具的位置信息。只有当两者均处于良好状态时才能实现预期功能。 ```python from PIL import Image import pytesseract # 显式指明 Tesseract OCR 的确切地址 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' def ocr_core(filename): """ 提取图片文字的核心函数 :param filename: 图片文件名 :return: 文字字符串 """ text = pytesseract.image_to_string(Image.open(filename)) # We'll use Pillow's Image class to open the image and pass it to pytesseract return text if __name__ == "__main__": result = ocr_core('test_image.jpg') print(result) ``` ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值