Tesseract.js 光学字符识别(OCR)实战指南

Tesseract.js 光学字符识别(OCR)实战指南

tesseract.js Pure Javascript OCR for more than 100 Languages 📖🎉🖥 tesseract.js 项目地址: https://gitcode.com/gh_mirrors/te/tesseract.js

前言

Tesseract.js 是一个强大的 JavaScript OCR 库,它基于 Google 的 Tesseract OCR 引擎,能够在浏览器和 Node.js 环境中实现高质量的文本识别功能。本文将深入解析 Tesseract.js 的核心用法,帮助开发者快速掌握这一工具。

基础使用

最基本的 OCR 识别只需要几行代码:

const { createWorker } = require('tesseract.js');

const worker = await createWorker('eng');

(async () => {
  const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png');
  console.log(text);
  await worker.terminate();
})();

这段代码展示了 Tesseract.js 的核心工作流程:

  1. 创建一个 Worker 实例
  2. 加载指定的语言包(这里是英语 'eng')
  3. 调用 recognize 方法识别图片
  4. 获取并输出识别结果
  5. 终止 Worker 释放资源

进阶功能

1. 进度监控

对于大文件或复杂文档的识别,添加进度监控很有必要:

const worker = await createWorker('eng', 1, {
  logger: m => console.log(m),
});

logger 回调会接收识别过程中的各种状态信息,包括:

  • 加载进度
  • 识别阶段
  • 可能的警告或错误

2. 多语言识别

Tesseract.js 支持同时识别多种语言的文本:

const worker = await createWorker(['eng', 'chi_tra']);

语言代码之间用 '+' 连接,例如 'eng+chi_tra' 表示同时识别英文和繁体中文。

3. 字符白名单

在某些特定场景下(如只识别数字),可以设置字符白名单提高准确性:

await worker.setParameters({
  tessedit_char_whitelist: '0123456789',
});

4. 页面分割模式

Tesseract 提供了多种页面分割算法,适用于不同排版:

const { PSM } = require('tesseract.js');

await worker.setParameters({
  tessedit_pageseg_mode: PSM.SINGLE_BLOCK,
});

常用模式包括:

  • PSM.AUTO (自动)
  • PSM.SINGLE_BLOCK (单块文本)
  • PSM.SINGLE_LINE (单行文本)
  • PSM.SINGLE_WORD (单个单词)

5. 局部识别

对于只需要识别图片部分区域的情况:

const rectangle = { left: 0, top: 0, width: 500, height: 250 };
const { data } = await worker.recognize(image, { rectangle });

6. 多区域识别

可以定义多个矩形区域分别识别:

const rectangles = [
  { left: 0, top: 0, width: 500, height: 250 },
  { left: 500, top: 0, width: 500, height: 250 }
];

const values = [];
for (const rect of rectangles) {
  const { data } = await worker.recognize(image, { rectangle: rect });
  values.push(data.text);
}

性能优化

1. 使用调度器并行处理

对于大量识别任务,可以使用调度器提高效率:

const { createScheduler } = require('tesseract.js');

const scheduler = createScheduler();
const worker1 = await createWorker('eng');
const worker2 = await createWorker('eng');

scheduler.addWorker(worker1);
scheduler.addWorker(worker2);

const results = await Promise.all(rectangles.map(rect => 
  scheduler.addJob('recognize', image, { rectangle: rect })
));

await scheduler.terminate();

2. 批量任务处理

同时处理多个识别任务:

const results = await Promise.all(Array(10).fill(0).map(() => 
  scheduler.addJob('recognize', image)
));

最佳实践

  1. 资源管理:始终记得调用 terminate() 释放 Worker 资源
  2. 错误处理:为识别操作添加 try-catch 块
  3. 性能权衡:Worker 数量不是越多越好,需根据设备性能调整
  4. 预处理:识别前对图像进行适当处理(如二值化、降噪)可提高准确性

结语

Tesseract.js 为 JavaScript 生态带来了强大的 OCR 能力,通过本文介绍的各种用法,开发者可以根据实际需求灵活应用。无论是简单的文字提取还是复杂的多语言文档处理,Tesseract.js 都能提供可靠的解决方案。

tesseract.js Pure Javascript OCR for more than 100 Languages 📖🎉🖥 tesseract.js 项目地址: https://gitcode.com/gh_mirrors/te/tesseract.js

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赖欣昱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值