Tesseract OCR 命令行工具完全指南-优快云博客

Tesseract OCR 命令行工具完全指南

Tesseract 是一个开源的 OCR（光学字符识别）引擎，最初由 HP 实验室在 1985 至 1995 年间开发。它曾被评为 UNLV 测试中表现最佳的三大 OCR 引擎之一，2005 年被 HP 和 UNLV 开源，之后由 Google 维护至 2018 年。

Tesseract 的基本命令行语法为：

tesseract 输入文件 输出基础名 [选项]... [配置文件]...

输入文件：可以是图像文件或文本文件
- 支持 Leptonica 库能读取的大多数图像格式
- 文本文件应包含每行一个图像文件名列表
- 使用 stdin 或 - 从标准输入读取
输出基础名：输出文件的基础名称
- 默认添加 .txt 扩展名
- 使用 stdout 或 - 输出到标准输出

-l LANG

--psm N

PSM 参数控制 Tesseract 如何处理图像布局：

--oem N

Tesseract 支持多种输出格式的配置文件：

示例同时生成多种格式：

tesseract image.png output alto hocr pdf

可通过以下方式增强识别效果：

Tesseract 4 支持超过 100 种语言和脚本，包括：

完整列表可通过 --list-langs 查看。

Tesseract 经历了多个重要版本迭代：

当前版本同时支持传统模式和新式 LSTM 引擎，为用户提供灵活选择。

通过合理配置选项和自定义数据，Tesseract 能够满足从简单文档到复杂多语言文本的各种 OCR 需求。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考