MMOCR项目常见问题解答与技术指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01056/article/details/148524468

MMOCR项目常见问题解答与技术指南

mmocr OpenMMLab Text Detection, Recognition and Understanding Toolbox 项目地址: https://gitcode.com/gh_mirrors/mm/mmocr

前言

MMOCR作为一款优秀的OCR开源工具库，在实际使用过程中开发者可能会遇到各种技术问题。本文针对常见问题进行了系统梳理和深入解答，帮助开发者更好地理解和使用MMOCR。

基础问题

模型加载警告问题

问题描述：加载模型时出现"unexpected key in source state_dict: fc.weight, fc.bias"警告信息，是否意味着模型加载失败？

技术解析：

这个警告属于正常现象，并非错误
产生原因是预训练的主干网络(backbone)最初是为图像分类任务设计的
分类任务需要最后的全连接层(fc层)进行分类输出
在OCR任务中，我们仅使用主干网络提取特征，不需要fc层
加载权重时会自动跳过这些无关参数，不影响模型性能

建议：可以放心忽略此类警告，它不会影响模型的实际表现。

几何图形无效错误

问题描述：运行时报错"shapely.errors.TopologicalError: The operation 'GEOSIntersection_r' could not be performed"，如何解决？

问题根源：

数据集中存在无效的多边形标注
数据增强操作可能产生自相交的多边形
常见于TotalText等数据集

解决方案：

在数据处理流程中添加FixInvalidPolygon转换
建议放在LoadOCRAnnotations之后
配置示例：

train_pipeline = [
    ...,
    dict(
        type='LoadOCRAnnotations',
        with_polygon=True,
        with_bbox=True,
        with_label=True,
    ),
    dict(type='FixInvalidPolygon', min_poly_points=4),
    ...
]

技术细节：

min_poly_points=4确保多边形至少有4个点
该转换会自动修复无效多边形
对于TotalText数据集是必需的操作

图像加载警告

问题描述：使用cv2后端加载图像时出现"libpng warning: iCCP: known incorrect sRGB profile"警告

原因分析：

图像中包含icc色彩配置文件
libpng库对此有兼容性警告
不影响实际使用，但可能干扰日志查看

解决方案：

改用pillow作为图像解码后端
配置示例：

train_pipeline = [
    dict(
        type='LoadImageFromFile',
        imdecode_backend='pillow'),
    ...
]

性能考量：

pillow后端通常更稳定
处理某些特殊格式图像时表现更好
但可能比cv2稍慢一些

文本识别专题

自定义字典训练

问题描述：如何使用自定义字典训练文本识别模型？

完整步骤：

准备字典文件
- 纯文本格式，每行一个字符
- 建议UTF-8编码
- 示例路径：/my/dict.txt
修改模型配置
- 更新dictionary配置项
- 示例配置：

dictionary = dict(
    type='Dictionary',
    dict_file='/my/dict.txt',
    with_start=True,      # 是否包含起始符
    with_end=True,        # 是否包含结束符
    same_start_end=True,  # 起始结束符是否相同
    with_padding=True,    # 是否包含填充符
    with_unknown=True)    # 是否包含未知字符符

开始训练
- 无需其他修改
- 模型会自动适配新字典

技术要点：

字典配置非常灵活
支持多种特殊标记配置
适用于各种语言场景

非英文字符显示

问题描述：如何正确显示中文、韩文等非英文字符？

解决方案一：使用系统字体

visualizer = dict(
    type='TextRecogLocalVisualizer',
    name='visualizer',
    font_families='NanumGothic',  # 韩文字体示例
    vis_backends=vis_backends)

解决方案二：指定字体文件

visualizer = dict(
    type='TextRecogLocalVisualizer',
    name='visualizer',
    font_properties='path/to/font_file',
    vis_backends=vis_backends)

字体选择建议：