OpenOCR 项目使用与启动指南

OpenOCR 项目使用与启动指南

OpenOCR OpenOCR: A general OCR system with accuracy and efficiency. Supporting 24 Scene Text Recognition methods trained from scratch on large-scale real datasets, and will continue to add the latest methods. OpenOCR 项目地址: https://gitcode.com/gh_mirrors/op/OpenOCR

1. 项目介绍

OpenOCR 是一个基于深度学习的通用光学字符识别(OCR)系统,它以准确性和高效性为目标,支持中英文文本检测与识别。该项目基于复旦大学 FVL 实验室的研究成果,旨在为场景文本检测和识别建立统一的训练和评估基准。OpenOCR 支持多种场景文本识别方法,并在不断更新中添加最新技术。

2. 项目快速启动

ONNX 推理启动

首先,安装 OpenOCR 和 ONNX 运行时依赖:

pip install openocr-python
pip install onnxruntime

然后,使用以下代码进行推理:

from openocr import OpenOCR
onnx_engine = OpenOCR(backend='onnx', device='cpu')
img_path = '/path/img_path 或 /path/img_file'
result, elapse = onnx_engine(img_path)

PyTorch 推理启动

安装 PyTorch 和相关依赖:

conda create -n openocr python==3.8
conda activate openocr
# 安装 GPU 版本 PyTorch
conda install pytorch==2.2.0 torchvision==0.17.0 torchaudio==2.2.0 pytorch-cuda=11.8 -c pytorch -c nvidia
# 或者 CPU 版本
conda install pytorch torchvision torchaudio cpuonly -c pytorch

安装 OpenOCR:

pip install openocr-python

或者克隆仓库:

git clone https://github.com/Topdu/OpenOCR.git
cd OpenOCR
pip install -r requirements.txt

下载预训练模型:

wget https://github.com/Topdu/OpenOCR/releases/download/develop0.0.1/openocr_det_repvit_ch.pth
wget https://github.com/Topdu/OpenOCR/releases/download/develop0.0.1/openocr_repsvtr_ch.pth
# 服务器模型
wget https://github.com/Topdu/OpenOCR/releases/download/develop0.0.1/openocr_svtrv2_ch.pth

使用以下命令进行推理:

# OpenOCR 系统:检测 + 识别模型
python tools/infer_e2e.py --img_path=/path/img_fold 或 /path/img_file
# 检测模型
python tools/infer_det.py --c ./configs/det/dbnet/repvit_db.yml --o Global.infer_img=/path/img_fold 或 /path/img_file
# 识别模型
python tools/infer_rec.py --c ./configs/rec/svtrv2/repsvtr_ch.yml --o Global.infer_img=/path/img

3. 应用案例和最佳实践

  • 案例一: 在移动设备上部署轻量级模型,以实现实时的文本识别功能。
  • 案例二: 在服务器端部署高精度模型,处理大量图片中的文本信息。
  • 最佳实践: 定期使用新的数据集对模型进行微调,以保持其识别率和准确性。

4. 典型生态项目

  • 项目一: 使用 OpenOCR 进行文档数字化,提高文档检索和管理效率。
  • 项目二: 集成 OpenOCR 到智能监控系统,实现实时文本信息抓取和分析。
  • 项目三: 结合 OpenOCR 和其他机器学习技术,开发智能问答系统。

OpenOCR OpenOCR: A general OCR system with accuracy and efficiency. Supporting 24 Scene Text Recognition methods trained from scratch on large-scale real datasets, and will continue to add the latest methods. OpenOCR 项目地址: https://gitcode.com/gh_mirrors/op/OpenOCR

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

邓娉靓Melinda

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值