图片提取文字工具Tesseractjs

Tesseractjs简介

Tesseract.js 是一个基于 Tesseract OCR 引擎的开源 JavaScript 库,用于在浏览器和 Node.js 环境中执行光学字符识别 (OCR)。它的特点是无需依赖服务器端支持,完全在客户端执行 OCR 操作。
跨平台支持:支持 100 多种语言的纯 JavaScript OCR 库;
GitHub地址;

Tesseractjs主要特性

跨平台支持

  • 可以在浏览器和 Node.js 中运行。
  • 支持现代浏览器,包括 Chrome、Firefox、Safari 等。

多语言支持:

  • 默认支持 100 多种语言。
  • 允许加载不同的语言数据(如中文、英文等)。

高性能:

  • 使用 WebAssembly (WASM) 技术实现高效的计算。
  • 支持多线程处理,利用 worker 加速 OCR 过程。

易用性:

  • 提供简单易懂的 API 接口。
  • 能够提取图片中的文字,支持图片预处理(如旋转、二值化)。
Tesseractjs基本用法
// cdn
<script src='https://cdn.jsdelivr.net/npm/tesseract.js@5/dist/tesseract.min.js'></script>
// 下载
npm install tesseract.js
yarn add tesseract.js
// Node示例
const Tesseract = require('tesseract.js');
// 识别图片中的文本
Tesseract.recognize(
  'path/to/image.png', // 图片路径
  'eng',              // 语言代码
  {
    logger: info => console.log(info), // 可选:日志输出
  }
).then(({ data: { text } }) => {
  console.log('识别的文本:', text);
}).catch(error => {
  console.error('OCR 失败:', error);
});
// JS示例
import { createWorker } from 'tesseract.js';
(async () => {
  const worker = await createWorker('eng');
  const ret = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png');
  console.log(ret.data.text);
  await worker.terminate();
})();
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值