软件工程应用与实践(十一):CRNN-CTC模型再介绍

本文详述了PP-OCR的文字识别策略,重点介绍了CRNN-CTC模型,对比了CTC与Attention模型在识别英文字符时的差异。CRNN-CTC模型采用CTC损失函数,而Attention模型利用注意力机制。训练结果显示,Attention模型在收敛速度和识别精度上优于CTC模型。此外,文章还提供了模型训练、数据准备和预测的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2021SC@SDUSC

目录

一、前情回顾和背景介绍

1.1 PP-OCR文字识别策略回顾

1.2 CRNN-CTC模型概述

二、CRNN-CTC模型策略详解

2.1  模型流程

代码结构

数据

数据示例

数据准备

模型训练

测试

三、CTC model VS attention model

预测

预训练模型

总结


一、前情回顾和背景介绍

1.1 PP-OCR文字识别策略回顾

        策略的选用主要是用来增强模型能力和减少模型大小。下面是PP-OCR文字识别器所采用的九种策略:

  • 轻主干,选用采用 MobileNetV3 large x0.5 来权衡精度和效率;
  • 数据增强,BDA (Base Dataaugmented)和TIA (Luo et al. 2020);
  • 余弦学习率衰减,有效提高模型的文本识别能力;
  • 特征图辨析,适应多语言识别,进行向下采样 feature map的步幅修改;
  • 正则化参数,权值衰减避免过拟合;
  • 学习率预热,同样有效;
  • 轻头部,采用全连接层将序列特征编码为预测字符,减小模型大小;
  • 预训练模型,是在 ImageNet 这样的大数据集上训练的,可以达到更快的收敛和更好的精度;
  • PACT量化,略过 LSTM 层;

1.2 CRNN-CTC模型概述

        CRNN-CTC 使用CTC model识别图片中单行英文字符,用于端到端的文本行图片识别方法。

        识别图片中单行英文字符,可以使用CTC model和attention model两种不同的模型来完成该任务。

        这两种模型的有相同的编码部分,首先采用卷积将图片转为特征图, 然后使用im2sequence op将特征图转为序列,通过双向GRU学习到序列特征。

        两种模型的解码部分和使用的损失函数区别如下:

  • CTC model: 训练过程选用的损失函数为CTC(Connectionist Temporal Classification) loss, 预测阶段采用的是贪婪策略和CTC解码策略。
  • Attention model: 训练过程选用的是带注意力机制的解码策略和交叉信息熵损失函数,预测阶段采用的是柱搜索策略。



二、CRNN-CTC模型策略详解

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值