Tesseract配置参数详解及适用场景（PyTesseract进行OCR）

原创

已于 2025-06-07 20:05:17 修改 · 2.6k 阅读

·

27

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#ocr #人工智能 #PyTesseract #tesseract #ocr识别 #pytesseract配置参数

于 2025-06-06 15:56:16 首次发布

在使用 PyTesseract 进行 OCR 时，合理配置参数是提高识别准确率的关键。以下是 Tesseract 常用参数的详细解释和适用场景。

一、关键参数

（1）页面分割模式（Page Segmentation Mode, --psm）

控制 Tesseract 如何分析图像中的文本布局，对单行文本、多列文本、表格等不同场景有不同优化。

参数值	描述	适用场景
0	仅定向和脚本检测	用于分析文本方向和语言脚本（如中文、英文）
1	自动分页	处理包含多页内容的图像（如扫描书籍）
2	自动分页，但不进行 OCR	仅分析页面布局，不识别文本
3	全自动分页，无需 OCR	默认模式，适用于常规文档
4	假设为单列文本	处理报纸、杂志等多列文本
5	假设为垂直排列的文本	处理竖排文字（如古籍、日语竖排）
6	假设为单行文本	处理单行较长的文本（如标题）
7	视为单个文本行	短文本、验证码、标语
8	视为单个单词	孤立单词、品牌名、验证码（无空格）
9	视为单个单词在圆圈中	圆形排列的文字（如标志）
10	视为单个字符	单个字母或数字（如车牌字符）
11	稀疏文本	分散在图像中的文本（如水印、标签）
12	稀疏文本，先进行 OSD	稀疏文本且需要自动检测方向
13	原始行	忽略布局，按行处理（适用于不规则文本）

验证码场景推荐：psm 7（单行文本）或 psm 8（单个单词）。</

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。