使用Pytesseract进行OCR

最新推荐文章于 2025-03-29 20:00:00 发布

终将老去的穷苦程序员

最新推荐文章于 2025-03-29 20:00:00 发布

阅读量543

点赞数 3

文章标签： ocr

本文链接：https://blog.youkuaiyun.com/r081r096/article/details/136922999

版权

本文介绍了如何在Python中利用TesseractOCR库识别图片文字，包括安装Tesseract、Pytesseract和Pillow库，提供了一个示例代码，并强调了图片质量对识别效果的影响以及注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在Python中，可以使用Tesseract OCR库来识别图片上的文字。Tesseract是一个开源的光学字符识别（OCR）引擎，可以识别多种语言的文本。为了在Python中使用Tesseract，通常会使用pytesseract这个Python库作为Tesseract的一个接口。

安装和配置

安装Tesseract OCR：首先需要在你的系统上安装Tesseract OCR。这可以从Tesseract的GitHub页面或通过系统的包管理器来安装。
安装Pytesseract：然后在Python环境中安装pytesseract库。
```
pip install pytesseract
```
安装Pillow：Pillow是Python的一个图像处理库，pytesseract需要使用它来处理图像。
```
pip install Pillow
```

使用Pytesseract进行OCR

安装好所需的库后，你就可以使用以下的代码来识别图片上的文字了：

import pytesseract
from PIL import Image

# 指定Tesseract的安装路径
# 例如，在Windows上可能是这样的路径：pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
# 在Linux上，通常不需要设置这个路径，除非Tesseract未安装在默认位置

# 加载图片
image = Image.open('path/to/your/image.jpg')

# 使用Tesseract识别图片上的文字
text = pytesseract.image_to_string(image, lang='eng')  # 使用英文识别，对于其他语言可以更改'eng'

# 打印识别结果
print(text)