MMOCR项目快速入门指南：从推理到训练全流程解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00449/article/details/148524751

MMOCR项目快速入门指南：从推理到训练全流程解析

mmocr OpenMMLab Text Detection, Recognition and Understanding Toolbox 项目地址: https://gitcode.com/gh_mirrors/mm/mmocr

前言

MMOCR是一个基于PyTorch的开源OCR工具库，提供了丰富的文本检测、识别和端到端OCR模型。本文将带你快速了解MMOCR的核心功能，包括模型推理、数据集准备、模型训练和测试评估等全流程操作。

一、模型推理初体验

让我们首先体验MMOCR的推理功能，这是最直观了解模型效果的方式。

1.1 单图推理

使用以下命令可以对单张图片进行OCR识别：

python tools/infer.py demo/demo_text_ocr.jpg --det DBNet --rec CRNN --show --print-result

这个命令使用了DBNet作为文本检测模型，CRNN作为文本识别模型，执行后会：

弹窗显示识别结果
在控制台打印识别文本和置信度

1.2 推理结果解析

典型的输出结果包含以下信息：

rec_texts：识别出的文本列表
rec_scores：对应文本的置信度
det_polygons：检测到的文本框坐标
det_scores：检测框的置信度

对于无GUI环境的服务器，可以省略--show参数，仅查看控制台输出。

二、准备训练数据

要训练自定义模型，首先需要准备合适的数据集。MMOCR支持多种OCR数据集格式，并提供了统一的数据格式规范。

2.1 数据集结构

MMOCR推荐的数据集目录结构通常包含：

data/
├── mini_icdar2015/
│   ├── imgs/          # 存放所有图片
│   ├── annotations/   # 存放标注文件
│   ├── train_list.txt # 训练集列表
│   └── test_list.txt  # 测试集列表

2.2 数据准备技巧

对于ICDAR2015这类标准数据集，MMOCR提供了便捷的数据准备脚本。对于自定义数据集，需要：

将图片和标注文件整理到指定目录
确保标注格式符合MMOCR要求
生成训练/测试集划分文件

三、配置模型训练

MMOCR采用模块化的配置系统，通过修改配置文件可以灵活调整训练参数。

3.1 关键配置项

以DBNet训练为例，主要需要关注以下配置：

数据路径配置：

icdar2015_textdet_data_root = 'data/mini_icdar2015'

训练参数配置：

train_cfg = dict(max_epochs=400, val_interval=10)

优化器配置：

optimizer = dict(type='SGD', lr=0.007, momentum=0.9, weight_decay=0.0001)

3.2 配置继承机制

MMOCR采用配置继承机制，允许用户：

复用基础配置
只修改必要的参数
保持配置文件的简洁性

四、训练过程监控

启动训练后，可以通过多种方式监控训练过程。

4.1 训练日志解读

典型的训练日志包含以下关键信息：

Epoch [1][5/7] lr: 7.0000e-03 loss: 17.8843 time: 1.8666

lr：当前学习率
loss：当前批次损失值
time：处理时间

4.2 验证指标分析

验证阶段会输出精度指标：

icdar/precision: 0.7285 icdar/recall: 0.5226 icdar/hmean: 0.6086

precision：精确率
recall：召回率
hmean：F1分数

五、模型测试与评估

训练完成后，需要对模型进行全面的测试评估。

5.1 测试命令示例

python tools/test.py configs/textdet/dbnet/dbnet_resnet18_fpnc_1200e_icdar2015.py work_dirs/dbnet_resnet18_fpnc_1200e_icdar2015/epoch_400.pth

5.2 多阈值评估

MMOCR会自动在不同置信度阈值下评估模型：

threshold: 0.50, recall: 0.6190, precision: 0.6842, hmean: 0.6500

这有助于找到模型的最佳工作点。

六、可视化分析

可视化是理解模型行为的重要手段。

6.1 数据集可视化

在训练前可视化数据增强效果：

python tools/analysis_tools/browse_dataset.py configs/textdet/dbnet/dbnet_resnet18_fpnc_1200e_icdar2015.py

6.2 预测结果可视化

测试时保存预测结果：

python tools/test.py configs/textdet/dbnet/dbnet_resnet18_fpnc_1200e_icdar2015.py work_dirs/dbnet_resnet18_fpnc_1200e_icdar2015/epoch_400.pth --show-dir imgs/

可视化结果会并排显示真实标注和预测结果，方便对比分析。