用于手写文本识别的卷积循环神经网络架构研究
1. 研究背景与网络基础
在无约束离线手写识别领域,输入通常是文本行图像。当前,神经网络已成为手写识别系统的关键组成部分。许多离线手写文本识别(HTR)系统采用行级识别方式,训练具有特定架构的神经网络,常见的是卷积神经网络(CNNs)和循环神经网络(RNNs)的组合。
CNN 利用有限的上下文信息,而 RNN 则借助顺序数据提升训练性能,能在其内部状态中存储先前输入的信息。不过,RNN 存在梯度爆炸和梯度消失的问题。为解决这一问题,长短期记忆网络(LSTM)被引入,它具有强大的学习能力,其架构可通过内部门控机制让网络长时间存储信息。本文使用的是双向 LSTM 网络(BLSTM),它能从左右两个方向分析信息。
此外,在 CNN 和 BLSTM 之后添加两个全连接线性层(FCL),可使隐藏单元与输出之间的映射更加深入。整体构建的网络包含擅长减少频率变化的 CNN、适合时间建模的 BLSTM 以及能将特征映射到更易分离空间的 FCL。
2. 相关工作
HTR 本质上是一个顺序数据问题,相关的深度学习网络如 RNN 被用于应对相关挑战。对于离线手写文本识别,已提出多种使用不同配置 LSTM 的方法,如 1D - LSTM、双向 LSTM 和多向 LSTM。为提升分类性能,还采用了将 RNN 的循环特性引入传统 CNN 结构的统一方法,即 RNN 以 CNN 的输出为输入,并针对不同时间步返回顺序预测。同时,在 LSTM 后添加 FCL 可减少隐藏状态的变化,从而改善识别结果。
除网络结构外,正则化方法(如 dropout、批量归一化)和数据增强策略(通常是对现有样本进行随机失真)也