在使用 PyTesseract 进行 OCR 时,合理配置参数是提高识别准确率的关键。以下是 Tesseract 常用参数的详细解释和适用场景。
一、关键参数
(1)页面分割模式(Page Segmentation Mode, --psm)
控制 Tesseract 如何分析图像中的文本布局,对单行文本、多列文本、表格等不同场景有不同优化。
| 参数值 | 描述 | 适用场景 |
|---|---|---|
| 0 | 仅定向和脚本检测 | 用于分析文本方向和语言脚本(如中文、英文) |
| 1 | 自动分页 | 处理包含多页内容的图像(如扫描书籍) |
| 2 | 自动分页,但不进行 OCR | 仅分析页面布局,不识别文本 |
| 3 | 全自动分页,无需 OCR | 默认模式,适用于常规文档 |
| 4 | 假设为单列文本 | 处理报纸、杂志等多列文本 |
| 5 | 假设为垂直排列的文本 | 处理竖排文字(如古籍、日语竖排) |
| 6 | 假设为单行文本 | 处理单行较长的文本(如标题) |
| 7 | 视为单个文本行 | 短文本、验证码、标语 |
| 8 | 视为单个单词 | 孤立单词、品牌名、验证码(无空格) |
| 9 | 视为单个单词在圆圈中 | 圆形排列的文字(如标志) |
| 10 | 视为单个字符 | 单个字母或数字(如车牌字符) |
| 11 | 稀疏文本 | 分散在图像中的文本(如水印、标签) |
| 12 | 稀疏文本,先进行 OSD | 稀疏文本且需要自动检测方向 |
| 13 | 原始行 | 忽略布局,按行处理(适用于不规则文本) |
验证码场景推荐:psm 7(单行文本)或 psm 8(单个单词)。</

最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



