28、用于手写文本识别的卷积循环神经网络架构研究

用于手写文本识别的卷积循环神经网络架构研究

1. 研究背景与网络基础

在无约束离线手写识别领域,输入通常是文本行图像。当前,神经网络已成为手写识别系统的关键组成部分。许多离线手写文本识别(HTR)系统采用行级识别方式,训练具有特定架构的神经网络,常见的是卷积神经网络(CNNs)和循环神经网络(RNNs)的组合。

CNN 利用有限的上下文信息,而 RNN 则借助顺序数据提升训练性能,能在其内部状态中存储先前输入的信息。不过,RNN 存在梯度爆炸和梯度消失的问题。为解决这一问题,长短期记忆网络(LSTM)被引入,它具有强大的学习能力,其架构可通过内部门控机制让网络长时间存储信息。本文使用的是双向 LSTM 网络(BLSTM),它能从左右两个方向分析信息。

此外,在 CNN 和 BLSTM 之后添加两个全连接线性层(FCL),可使隐藏单元与输出之间的映射更加深入。整体构建的网络包含擅长减少频率变化的 CNN、适合时间建模的 BLSTM 以及能将特征映射到更易分离空间的 FCL。

2. 相关工作

HTR 本质上是一个顺序数据问题,相关的深度学习网络如 RNN 被用于应对相关挑战。对于离线手写文本识别,已提出多种使用不同配置 LSTM 的方法,如 1D - LSTM、双向 LSTM 和多向 LSTM。为提升分类性能,还采用了将 RNN 的循环特性引入传统 CNN 结构的统一方法,即 RNN 以 CNN 的输出为输入,并针对不同时间步返回顺序预测。同时,在 LSTM 后添加 FCL 可减少隐藏状态的变化,从而改善识别结果。

除网络结构外,正则化方法(如 dropout、批量归一化)和数据增强策略(通常是对现有样本进行随机失真)也

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值