如何在Mindee/Doctr项目中选择合适的OCR模型

最新推荐文章于 2025-06-18 17:51:14 发布

魏真权

最新推荐文章于 2025-06-18 17:51:14 发布

阅读量368

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00976/article/details/148523146

如何在Mindee/Doctr项目中选择合适的OCR模型

doctr docTR (Document Text Recognition) - a seamless, high-performing & accessible library for OCR-related tasks powered by Deep Learning. 项目地址: https://gitcode.com/gh_mirrors/do/doctr

理解OCR任务的基本组成

光学字符识别(OCR)技术通常由两个核心任务组成：文本检测和文本识别。在Mindee/Doctr项目中，这两个任务可以分别执行，也可以组合使用。

文本检测

负责在图像中定位文本元素的位置，输出可以是边界框、多边形或像素级分割图。Mindee/Doctr的最新检测模型能够处理旋转和倾斜的文档。

文本识别

负责将检测到的文本区域转换为可读的字符序列。

模型架构概览

Mindee/Doctr提供了多种模型架构选择，支持TensorFlow和PyTorch两种深度学习框架。每个模型都由两个核心组件构成：

预处理模块(PreProcessor)：负责将输入数据转换为模型可直接使用的格式
深度学习模型(Model)：包含特定后处理逻辑，使输出结构化且易于使用

文本检测模型详解

可用架构

Mindee/Doctr提供了多种文本检测模型：

LinkNet系列：
- linknet_resnet18
- linknet_resnet34
- linknet_resnet50
DB系列：
- db_resnet50
- db_mobilenet_v3_large
FAST系列：
- fast_tiny
- fast_small
- fast_base

性能对比

根据公开数据集(FUNSD和CORD)的测试结果：

精度表现：db_resnet50在FUNSD数据集上达到84.39%召回率和85.86%精确率
速度表现：db_mobilenet_v3_large处理速度最快，仅需0.5秒/图像
轻量级选择：fast_tiny在保持较高精度的同时，参数数量较少(8.5M)

检测预测器使用示例

import numpy as np
from doctr.models import detection_predictor

# 初始化模型
model = detection_predictor('db_resnet50', 
                          pretrained=True,
                          assume_straight_pages=False,
                          preserve_aspect_ratio=True)

# 处理图像
dummy_img = (255 * np.random.rand(800, 600, 3)).astype(np.uint8)
out = model([dummy_img])

关键参数说明：

pretrained：是否使用预训练权重
assume_straight_pages：是否假设文档是正放的
preserve_aspect_ratio：是否保持图像原始宽高比
symmetric_pad：是否对称填充图像

文本识别模型详解

可用架构

CRNN系列：
- crnn_vgg16_bn
- crnn_mobilenet_v3_small
- crnn_mobilenet_v3_large
Transformer系列：
- sar_resnet31
- master
- vitstr_small
- vitstr_base
- parseq
- viptr_tiny
- viptr_base