【Python】使用pytesseract识别图片文本

原创于 2019-09-01 12:58:50 发布 · 618 阅读

0 ·

CC 4.0 BY-SA版权

Python 专栏收录该内容

5 篇文章

订阅专栏

本文介绍如何使用 pytesseract 库进行图片文本识别，包括代码示例、环境配置及常见问题解决。pytesseract 是一个 Python 接口，用于 Tesseract OCR 引擎，适用于无噪点和干扰线的验证码识别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Speak in code.

import pytesseract
from PIL import Image

def get_image_string(image_path):
    image = Image.open(image_path)
    image_str = pytesseract.image_to_string(image, lang='eng')
    print(image_str)
    return image_str

pytesseract可以简单理解为一个图片文本识别库，详细介绍和安装步骤请看官网：https://pypi.org/project/pytesseract/

以上代码不能直接运行，还需要安装相关软件及配置环境变量，参考链接：tesseract-ocr的安装及使用

经测试识别准确率还可以，可用于无噪点和干扰线的验证码识别。

常见问题：

1. UserWarning: Couldn't allocate palette entry for transparency
图片为RGBA格式，需要转化为RGB格式

image = image.convert('RGB')