论文笔记:Gradient-Based Learning Applied to Document Recognition

本文探讨了梯度学习技术在文档识别领域的应用,特别是卷积神经网络(CNN)和图变换网络(GTN)在处理手写体识别、字段提取、分割和识别中的优势。展示了CNN在字符识别上的卓越性能,以及GTN在优化整体系统性能指标方面的潜力。

在这里插入图片描述

Gradient-Based Learning Applied to Document Recognition:梯度学习在文档识别中的应用

摘要

用BP算法训练多层神经网络,是梯度学习技术的一个成功的案例。给出一个合适的网络架构,梯度学习算法可以综合处一个复杂的决策面,实现对于类似手写体字符这样高维模式的分类。本文回顾了各种不同的手写体识别方法,并给基于标准任务比较这些算法。卷积神经网络,专门为处理变化较大的二维图形而设计,显示出超越所有其他技术的能力。

引入卷积神经网络模型。

现实中的文档识别系统由字段提取、分割、识别和语言建模等多个模块组成。一种新的学习范式,称为图变换网络(Graphic Transformer Networks, GTN),允许这样的多模型系统全局使用梯度方法训练,以便尽量减少整体性能指标。

推荐端到端的训练模式。

本文介绍了两个针对在线手写体识别的系统。实验证实了全局训练的优势,以及图变换网络的灵活性。

本文还介绍了一个用来读取空白支票的图变换网络系统。通过使用基于全局训练技术的卷积神经网络字符识别算法,可提供商业和个人支票的精确记录。该系统已经实现了商业化部署,每天读取数百万张支票。

关键词—— 神经网络, OCR,文档识别,机器学习,梯度学习,卷积神经网络,图变换网络,有限状态传感器。

I. 引言

在过去的几年里,机器学习技术,尤其是基于神经网络的,在模式识别系统中的重要性快速提升。事实上,在近期一些成功的模式识别应用中,例如连续语音识别和手写体识别,学习技术是否是一个关键性的因素仍存在争议。

本文展示的主要信息是,更多地依靠自动学习、更少地依赖人工设计的启发式策略,能够构建更好的模式识别系统。当前机器学习和计算机技术的进步已经使这样的方法成为可能。用字符识别算法作为一个案例研究,我们看到,人工设计的特征抽取方法,完全可以被仔细设计的直接基于像素图象的学习机很好地代替。用文档理解算法作为一个案例,我们看到,传统的构建方法是用人工集成多个设计好的模块,这种方法完全被一种统一的并且有原则的设计范式所取代,这种设计范式允许训练所有的模块以便优化全局的性能指标的,我们称之为图变换网络。

从模式识别的早期开始,人们就知道,自然数据的多样性和丰富性,无论是语音、字形还是其他类型的模式,几乎不可能完全靠手工建立一个精确的识别系统。因此,大多数模式识别系统是使用自动学习技术和手工算法的组合来构建的。识别单个模式的常用方法是将系统分为两个主要模块,如图1所示。rst模块称为特征提取器,它对输入模式进行变换,使得它们可以用低维向量或短串符号来表示,这些符号(a)可以很容易地匹配或比较,并且(b)对于不改变其性质的输入模式的变换和扭曲相对不变。特征抽取器包含了大部分的先验知识,并且对任务相当特殊。它也是大多数设计的焦点,因为它通常完全是手工制作的。另一方面,通常是通用的、可训练的。这种方法的一个主要问题是,识别精度在很大程度上取决于设计者提出适当特征集的能力。事实证明,这是一项艰巨的任务,不幸的是,必须为每一个新问题重新做。大量的模式识别文献致力于描述和比较不同特征集对于特定任务的相对优点。
图1、传统的模式识别有两个模块:固定特征提取模块和可训练分类模块。
图1、传统的模式识别有两个模块:固定特征提取模块和可训练分类模块。

历史上,需要合适的特征抽取器是因为分类器使用的学习技术仅限于具有容易分离类的低维空间[1]。在过去的十年里,三个因素的结合改变了这一愿景。首先,具有快速运算单元的低成本机器的可用性允许更多地依赖于强力“数值”方法,而不是算法改进。其次,大型数据库的可用性使设计师能够更多地依赖真实数据,而较少地依靠手工提取特征来构建识别系统。第三个也是非常重要的因素是强大的机器学习技术的可用性,这些技术可以处理高维输入,并且在输入这些大数据集时可以生成复杂的决策函数。可以说,语音和笔迹识别系统的准确性最近的进步在很大程度上可以归因于对学习技术和大量训练数据集的依赖性增加。作为这一事实的证据,现代商业OCR系统的很大一部分使用了某种形式的多层神经网络训练与反向传播。

在这项研究中,我们考虑了手写字符识别的任务(第一和第二节),并比较了几种学习技术在手写数字识别基准数据集上的性能(第三节)。虽然更多的自动学习是有益的,但是没有最少的关于任务的先验知识,任何学习技术都不可能成功。在多层神经网络的情况下,一个很好的结合知识的方法是根据任务调整其结构。第 II 节介绍的卷积神经网络[2]是一个特殊的神经网络体系结构的例子,它通过使用局部连接模式和对权重施加约束来整合关于二维形状不变性的知识。第 III 节对几种孤立手写体数字识别方法进行了比较。从单个字符的识别到文档中单词和句子的识别,第四节介绍了将多个训练模块组合起来以减少总体误差的思想。如果模块操作有向图,则最好使用多模块系统来识别可变长度的对象,如手写字。这就引出了可训练图变换网络(GTN)的概念,并在第四节中介绍了GTN。第五节描述了用于识别单词或其他字符串的启发式过分割的经典方法。第六节介绍了在不需要人工分割和标记的情况下,在字级训练识别器的判别和非判别梯度技术。第七节提出了一种很有前途的空间位移神经网络方法,通过扫描识别器输入上所有可能的位置。在第八节中,基于一般的图合成算法,可训练的图变换网络可以表示为多重广义变换。讨论了语音识别中常用的GTNs模型和隐马尔可夫模型之间的联系。第九节描述了一个全局训练的GTN系统,用于识别输入到笔式计算机中的手写体。这个问题被称为“联机”手写识别,因为当用户书写时,机器必须立即产生反馈。系统的核心是卷积神经网络。结果清楚地显示了在单词层次训练识别器的优势,而不是在预分割的、手工标记的、孤立的字符上训练识别器。第十节描述了一个完整的基于GTN的系统,用于读取手写和机器打印的银行支票。系统的核心是第二节描述的卷积神经网络LeNet-5。该系统已在NCR公司银行业支票识别系统中投入商业应用。它在全美多家银行每月收到数百万张支票。

A. 从数据中学习

自动机器学习有几种方法,但最近几年神经网络社区推广的最成功的方法之一可以称为“数值”或基于梯度的学习。学习机计算函数Yp=F(Zp,W)Y^p=F(Z^p,W)Yp=F(Zp,W),其中ZpZ^pZp是第ppp个输入模式,W表示系统中可调参数的集合。在模式识别设置中,输出YpY^pYp可以被解释为模式ZpZ^pZp的识别类标签,或者被解释为与每个类相关联的分数或概率。损失函数Ep=D(Dp,F(W,Zp))E^p=D(D^p,F(W,Z^p))Ep=D(Dp,F(W,Zp)),测量DpD^pDp、模式ZpZ^pZp的“正确”或所需输出与系统产生的输出之间的差异。平均损失函数Etrain(W)E_{train}(W)Etrain(W)是一组标记示例(称为训练集{ (Z1,D1),......(ZP,DP)}\{ (Z^1, D^1), ...... (Z^P, D^P)\}{ (Z1,D1),......(ZP,DP)}上的误差EpE^pEp的平均值。在最简单的情况下,学习问题在于找出使 Etrain(W)E_{train}(W)Etrain(W)最小化的WWW值。在实践中,系统在训练集上的性能没有什么意义。更为相关的衡量标准是系统在实际应用中的误差率。这种性能是通过测量一组与训练集(称为测试集)不相交的样本的精度来估计的。大量的理论和实验工作[3]、[4]、[5]表明,测试集EtestE_{test}Etest上的期望错误率和训练集EtrainE_{train}Etrain上的错误率之间的差距随着训练样本数的增加而减小,近似于

Etest−Etrain=k(h/P)α(1)\tag1 E_{test}- E_{train}=k(h/P)^{\alpha} EtestEtrain=k(h/P)α(1)

其中PPP是训练样本的数量,hhh是“有效容量”或机器复杂性的度量[6],[7],α\alphaα是介于0:5和1:0之间的数字,kkk是常数。当训练样本数增加时,这种差距总是减小的。此外,随着容量hhh增加,EtrainE_{train}E

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

许野平

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值