本文将全面介绍如何在Python中使用Tesseract进行OCR文字识别,包含详细安装指南、核心API讲解、实用技巧和完整代码示例。
一、Tesseract简介
Tesseract是由HP实验室开发、后由Google维护的开源OCR引擎,支持100+种语言,是当前最强大的OCR工具之一。其特点包括:
- ✅ 免费开源(Apache 2.0许可证)
- ✅ 支持多语言(包括中文)
- ✅ 高精度文本识别
- ✅ 可训练自定义模型
二、环境安装(Windows/Mac/Linux)
1. 安装Tesseract引擎
Windows:
主页 · UB-Mannheim/tesseract Wiki --- Home · UB-Mannheim/tesseract Wiki
2. 安装Python库
pip install pytesseract pillow
3. 验证安装
import pytesseract
print(pytesseract.get_tesseract_version()) # 应输出类似 5.3.3
三、核心API详解
1. 基础图像识别
from PIL import Image
import pytesseract
识别英文文本
img = Image.open('invoice.png')
text = pytesseract.image_to_string(img)
print(text)
识别中文文本(需指定语言)
text_cn = pytesseract.image_to_string(
Image.open('chinese_doc.jpg'),
lang='chi_sim'
)
总结:
通过本文,您已掌握Tesseract的核心用法。实际应用中,建议结合具体场景调整预处理方法和识别参数。