软件工程应用与实践（六）：Paddle OCR文字识别器策略四

最新推荐文章于 2025-03-28 17:51:03 发布

pinkray_c

最新推荐文章于 2025-03-28 17:51:03 发布

阅读量890

点赞数 1

文章标签： paddlepaddle

本文链接：https://blog.youkuaiyun.com/pinkray_c/article/details/121194845

版权

本文详细介绍了PP-OCR文字识别模型中使用的学习率衰减策略，包括余弦学习率衰减、指数衰减、多项式衰减等，并分析了不同策略的效果。此外，还探讨了学习率衰减的warm-up策略及其在PP-OCR中的应用。代码段展示了PP-OCR如何实现线性、余弦和分段学习率衰减，以及带有warm-up的循环余弦学习率衰减。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2021SC@SDUSC

Paddle OCR所涉及的学习率衰减策略

一、前情回顾

1.PP-OCR文字识别策略

策略的选用主要是用来增强模型能力和减少模型大小。下面是PP-OCR文字识别器所采用的九种策略：

轻主干，选用采用 MobileNetV3 large x0.5 来权衡精度和效率；
数据增强，BDA (Base Dataaugmented)和TIA (Luo et al. 2020)；
余弦学习率衰减，有效提高模型的文本识别能力；
特征图辨析，适应多语言识别，进行向下采样 feature map的步幅修改；
正则化参数，权值衰减避免过拟合；
学习率预热，同样有效；
轻头部，采用全连接层将序列特征编码为预测字符，减小模型大小；
预训练模型，是在 ImageNet 这样的大数据集上训练的，可以达到更快的收敛和更好的精度；
PACT量化，略过 LSTM 层；

2.本文策略——学习率衰减的简单介绍

余弦学习率衰减，有效提高模型的文本识别能力

学习率衰减介绍

深层神经网络的参数学习主要是通过梯度下降方法来寻找一组可以最小化结构风险的参数。在梯度下降中学习率的取值非常关键，如果过大可能不会收敛，过小则收敛速度太慢。

通常的策略在一开始采用大的学习率保证收敛，在收敛到最优点附近时要小些以避免来回震荡。因此，比较简单直接的学习率调整可以通过学习率衰减（Learning Rate Decay）的方式来实现。

学习率衰减策略可以分为两种：固定策略的学习率衰减和自适应学习率衰减，其中固定学习率衰减包括分段衰减、逆时衰减、指数衰减等，自适应学习率衰减包括AdaGrad、 RMSprop、 AdaDelta等。一般情况，两种策略会结合使用。

学习率衰减的常见参数

参数名称	参数说明
learning_rate	初始学习率
global_step	用于衰减计算的全局步数，非负，用于逐步计算衰减指数
decay_steps	衰减步数，必须是正值，决定衰减周期
decay_rate	衰减率
end_learning_rate	最低的最终学习率
cycle	学习率下降后是否重新上升
alpha	最小学习率
num_periods	衰减余弦部分的周期数
initial_variance	噪声的初始方差
variance_decay	衰减噪声的方差
boundaries	学习率衰减边界
values	不同阶段对应学习率
staircase	是否以离散的时间间隔衰减学习率
power	多项式的幂

几种固定学习率衰减策略介绍

基本学习率衰减

piecewise decay 分段常数衰减，在训练过程中不同阶段设置不同的学习率，便于更精细的调参。在目标检测任务如Faster RCNN 和 SSD 的训练中都采用分段常数衰减策略，调整学习率。策略效果如下：
exponential decay 指数衰减：学习率以指数的形式进行衰减，其中指数函数的底为decay_rate，指数为 global_step / decay_steps。策略效果如下（图一为连续，图二为离散）：
natural exponential decay 自然指数衰减:学习率以自然指数进行衰减，其中指数函数底为自然常数e, 指数为-decay_rate * global_step / decay_step，相比指数衰减具有更快的衰减速度。策略实现效果如下（图一为连续，图二为离散）：
polynomial decay 多项式衰减：调整学习率的衰减轨迹以多项式对应的轨迹进行。其中（1 - global_step / decay_steps）为幂函数的底； power为指数，控制衰减的轨迹。策略效果实现如下（幂指数分别为0.5、1.0、2.0）：