28、用于手写文本识别的卷积循环神经网络架构研究

最新推荐文章于 2025-08-09 16:35:27 发布

QuietPulse

最新推荐文章于 2025-08-09 16:35:27 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏：解析模式识别与深度学习的前沿进展文章标签：手写文本识别卷积神经网络双向LSTM

本文链接：https://blog.youkuaiyun.com/c2d3e4f/article/details/149544217

解析模式识别与深度学习的前沿进展专栏收录该内容

71 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

用于手写文本识别的卷积循环神经网络架构研究

1. 研究背景与网络基础

在无约束离线手写识别领域，输入通常是文本行图像。当前，神经网络已成为手写识别系统的关键组成部分。许多离线手写文本识别（HTR）系统采用行级识别方式，训练具有特定架构的神经网络，常见的是卷积神经网络（CNNs）和循环神经网络（RNNs）的组合。

CNN 利用有限的上下文信息，而 RNN 则借助顺序数据提升训练性能，能在其内部状态中存储先前输入的信息。不过，RNN 存在梯度爆炸和梯度消失的问题。为解决这一问题，长短期记忆网络（LSTM）被引入，它具有强大的学习能力，其架构可通过内部门控机制让网络长时间存储信息。本文使用的是双向 LSTM 网络（BLSTM），它能从左右两个方向分析信息。

此外，在 CNN 和 BLSTM 之后添加两个全连接线性层（FCL），可使隐藏单元与输出之间的映射更加深入。整体构建的网络包含擅长减少频率变化的 CNN、适合时间建模的 BLSTM 以及能将特征映射到更易分离空间的 FCL。

2. 相关工作

HTR 本质上是一个顺序数据问题，相关的深度学习网络如 RNN 被用于应对相关挑战。对于离线手写文本识别，已提出多种使用不同配置 LSTM 的方法，如 1D - LSTM、双向 LSTM 和多向 LSTM。为提升分类性能，还采用了将 RNN 的循环特性引入传统 CNN 结构的统一方法，即 RNN 以 CNN 的输出为输入，并针对不同时间步返回顺序预测。同时，在 LSTM 后添加 FCL 可减少隐藏状态的变化，从而改善识别结果。

除网络结构外，正则化方法（如 dropout、批量归一化）和数据增强策略（通常是对现有样本进行随机失真）也