Tesseract.js 光学字符识别(OCR)实战指南

赖欣昱

于 2025-05-30 09:10:11 发布

阅读量316

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00990/article/details/148325896

Tesseract.js 光学字符识别(OCR)实战指南

tesseract.js Pure Javascript OCR for more than 100 Languages 📖🎉🖥 项目地址: https://gitcode.com/gh_mirrors/te/tesseract.js

前言

Tesseract.js 是一个强大的 JavaScript OCR 库，它基于 Google 的 Tesseract OCR 引擎，能够在浏览器和 Node.js 环境中实现高质量的文本识别功能。本文将深入解析 Tesseract.js 的核心用法，帮助开发者快速掌握这一工具。

基础使用

最基本的 OCR 识别只需要几行代码：

const { createWorker } = require('tesseract.js');

const worker = await createWorker('eng');

(async () => {
  const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png');
  console.log(text);
  await worker.terminate();
})();

这段代码展示了 Tesseract.js 的核心工作流程：

创建一个 Worker 实例
加载指定的语言包（这里是英语 'eng'）
调用 recognize 方法识别图片
获取并输出识别结果
终止 Worker 释放资源

进阶功能

1. 进度监控

对于大文件或复杂文档的识别，添加进度监控很有必要：

const worker = await createWorker('eng', 1, {
  logger: m => console.log(m),
});

logger 回调会接收识别过程中的各种状态信息，包括：

加载进度
识别阶段
可能的警告或错误

2. 多语言识别

Tesseract.js 支持同时识别多种语言的文本：

const worker = await createWorker(['eng', 'chi_tra']);

语言代码之间用 '+' 连接，例如 'eng+chi_tra' 表示同时识别英文和繁体中文。

3. 字符白名单

在某些特定场景下（如只识别数字），可以设置字符白名单提高准确性：

await worker.setParameters({
  tessedit_char_whitelist: '0123456789',
});

4. 页面分割模式

Tesseract 提供了多种页面分割算法，适用于不同排版：

const { PSM } = require('tesseract.js');

await worker.setParameters({
  tessedit_pageseg_mode: PSM.SINGLE_BLOCK,
});

常用模式包括：

PSM.AUTO (自动)
PSM.SINGLE_BLOCK (单块文本)
PSM.SINGLE_LINE (单行文本)
PSM.SINGLE_WORD (单个单词)

5. 局部识别

对于只需要识别图片部分区域的情况：

const rectangle = { left: 0, top: 0, width: 500, height: 250 };
const { data } = await worker.recognize(image, { rectangle });

6. 多区域识别

可以定义多个矩形区域分别识别：

const rectangles = [
  { left: 0, top: 0, width: 500, height: 250 },
  { left: 500, top: 0, width: 500, height: 250 }
];

const values = [];
for (const rect of rectangles) {
  const { data } = await worker.recognize(image, { rectangle: rect });
  values.push(data.text);
}

性能优化

1. 使用调度器并行处理

对于大量识别任务，可以使用调度器提高效率：

const { createScheduler } = require('tesseract.js');

const scheduler = createScheduler();
const worker1 = await createWorker('eng');
const worker2 = await createWorker('eng');

scheduler.addWorker(worker1);
scheduler.addWorker(worker2);

const results = await Promise.all(rectangles.map(rect => 
  scheduler.addJob('recognize', image, { rectangle: rect })
));

await scheduler.terminate();

2. 批量任务处理

同时处理多个识别任务：

const results = await Promise.all(Array(10).fill(0).map(() => 
  scheduler.addJob('recognize', image)
));

最佳实践

资源管理：始终记得调用 terminate() 释放 Worker 资源
错误处理：为识别操作添加 try-catch 块
性能权衡：Worker 数量不是越多越好，需根据设备性能调整
预处理：识别前对图像进行适当处理（如二值化、降噪）可提高准确性

结语

Tesseract.js 为 JavaScript 生态带来了强大的 OCR 能力，通过本文介绍的各种用法，开发者可以根据实际需求灵活应用。无论是简单的文字提取还是复杂的多语言文档处理，Tesseract.js 都能提供可靠的解决方案。

tesseract.js Pure Javascript OCR for more than 100 Languages 📖🎉🖥 项目地址: https://gitcode.com/gh_mirrors/te/tesseract.js

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考