软件工程应用与实践（十一）：CRNN-CTC模型再介绍

pinkray_c

于 2021-12-11 00:18:06 发布

阅读量3k

点赞数 1

文章标签：机器学习数据挖掘 python paddlepaddle paddle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/pinkray_c/article/details/121867065

版权

本文详述了PP-OCR的文字识别策略，重点介绍了CRNN-CTC模型，对比了CTC与Attention模型在识别英文字符时的差异。CRNN-CTC模型采用CTC损失函数，而Attention模型利用注意力机制。训练结果显示，Attention模型在收敛速度和识别精度上优于CTC模型。此外，文章还提供了模型训练、数据准备和预测的步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2021SC@SDUSC

目录

一、前情回顾和背景介绍

1.1　PP-OCR文字识别策略回顾

1.2　CRNN-CTC模型概述

二、CRNN-CTC模型策略详解

2.1 模型流程

三、CTC model VS　attention model

预训练模型

一、前情回顾和背景介绍

1.1　PP-OCR文字识别策略回顾

策略的选用主要是用来增强模型能力和减少模型大小。下面是PP-OCR文字识别器所采用的九种策略：

轻主干，选用采用 MobileNetV3 large x0.5 来权衡精度和效率；
数据增强，BDA (Base Dataaugmented)和TIA (Luo et al. 2020)；
余弦学习率衰减，有效提高模型的文本识别能力；
特征图辨析，适应多语言识别，进行向下采样 feature map的步幅修改；
正则化参数，权值衰减避免过拟合；
学习率预热，同样有效；
轻头部，采用全连接层将序列特征编码为预测字符，减小模型大小；
预训练模型，是在 ImageNet 这样的大数据集上训练的，可以达到更快的收敛和更好的精度；
PACT量化，略过 LSTM 层；

1.2　CRNN-CTC模型概述

CRNN-CTC 使用CTC model识别图片中单行英文字符，用于端到端的文本行图片识别方法。

识别图片中单行英文字符，可以使用CTC model和attention model两种不同的模型来完成该任务。

这两种模型的有相同的编码部分，首先采用卷积将图片转为特征图, 然后使用im2sequence op将特征图转为序列，通过双向GRU学习到序列特征。

两种模型的解码部分和使用的损失函数区别如下：

CTC model: 训练过程选用的损失函数为CTC(Connectionist Temporal Classification) loss, 预测阶段采用的是贪婪策略和CTC解码策略。
Attention model: 训练过程选用的是带注意力机制的解码策略和交叉信息熵损失函数，预测阶段采用的是柱搜索策略。

二、CRNN-CTC模型策略详解

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。