17、人工神经网络:从训练难题到深度学习浪潮

人工神经网络:从训练难题到深度学习浪潮

1. 多层神经网络训练难题的解决

20世纪70年代后,只有少数计算机科学家坚持研究人工神经网络(ANNs),主要难题在于找到训练多层网络的方法。最终,四个独立研究团队四次解决了该问题,由于沟通不畅,彼此都不知道对方的工作。直到1985年,才传出多层ANNs可通过算法训练的消息。

1.1 反向传播算法的诞生

  • Paul Werbos的贡献 :在哈佛,Paul Werbos在其博士研究中解决了该问题,他提出的反向传播(back-propagation或backprop)算法此前未应用于ANN训练。他曾向当时AI领域的权威Minsky提出合作发表论文,但未获兴趣。
  • 后续发展 :1985年,David Parker在麻省理工学院的技术报告中描述了反向传播算法;同年,法国学生Yann LeCun在巴黎的一次会议上发表论文描述了等效方法;1986年,David Rumelhart、Ronald Williams和Geoffrey Hinton在《自然》杂志上发表信件,清晰阐述了反向传播算法及其在ANNs中的应用,该算法最终确立为训练ANNs的标准算法。

1.2 反向传播算法的原理

  • 激活函数的改变 :反向传播要求对人工神经元的激活函数进行微小改变,将阈值操作替换为更平滑的函数,使神经元输出随激励增加从0逐渐上升到1,避免了感知机中从0到1的突然阈值转换。这种平滑转换允许在反向传播过程中逐步调整网络参数。
  • 输出决策的变化 :平滑激活函数意味着网络输出在0到1之间有一系列可能的值,最终决策不再是值为1的输出连接,而是值最大的输出连接,这提高了输入处于两类边界时的鲁棒性。

1.3 训练过程

  • 数据集划分 :首先,收集包含大量示例输入和相关输出的数据集,并将其分为三部分:大的训练集用于确定最佳参数值;较小的验证集用于评估性能和指导训练;测试集用于训练完成后测量网络的准确性。
  • 训练步骤
    1. 从随机网络参数开始,将训练集中的输入馈入网络,通过前向传播(forward-propagation)处理输入并产生输出。
    2. 将网络输出与该特定输入的期望输出进行比较,计算实际输出与期望输出之间的误差,误差测量为实际输出与期望输出平方的平均差值。
    3. 根据误差更新网络参数,从输出层第一个神经元的第一个权重开始,确定该权重与误差的数学关系,计算权重应改变的量以将误差降至零,结果乘以学习率后从当前权重中减去。
    4. 重复上述步骤,对网络中的所有参数进行反向更新。
    5. 对训练数据集中的每个输入 - 输出对执行误差计算、反向传播和参数更新,经过多次迭代,误差逐渐减小,网络学习输入示例与期望输出类之间的关系,直到误差不再减少时训练结束。

1.4 反向传播算法的意义

反向传播使研究人员首次能够高效训练多层网络,网络变得更准确,能够处理更复杂的分类任务。到80年代末,理论上证明了足够大的多层网络可以学习任何输入 - 输出映射,Minsky和Papert的反对意见被推翻。但在当时,ANNs的优势并不明显,由于计算机性能限制,网络规模仍然较小,ANNs在接下来的20年里只是配角。

2. Yann LeCun与手写数字识别

2.1 Yann LeCun的背景

Yann LeCun于1960年出生在巴黎,1983年获得工程学位。在第二年,他偶然读到一本关于儿童语言发展中先天与后天辩论的哲学书,接触到感知机相关内容后对其产生兴趣,并在博士阶段专注于神经网络研究。毕业后,他在Geoffrey Hinton的实验室做博士后研究,随后前往新泽西的AT&T贝尔实验室从事图像处理的神经网络研究。

2.2 手写数字识别的挑战

传统算法在手写数字识别方面表现不佳,因为书写风格差异大,如随意书写的7容易与1混淆,不完整的0可能被误认为6等,基于规则的算法无法应对这些变化。

2.3 卷积神经网络的提出

  • 数据集 :团队通过扫描纽约布法罗邮局信封上的邮政编码获得了包含9298张数字图像的数据集,并将其手动分类为对应0到9的十个类别。
  • Yann LeCun的想法 :为解决训练难题,LeCun提出将网络分解为许多具有共享参数的小网络的想法。具体做法是创建一个包含25个神经元和少量层的单元,该单元的输入是图像的一个小部分(5x5像素的正方形),将该单元复制64次形成一个组,这些单元在图像上平铺,每个单元的输入与相邻单元重叠3个像素。
  • 网络结构 :整个网络包含12个这样的组,每个组中的单元共享相同的参数,执行相同的功能但应用于图像的不同部分,每个组被训练来检测不同的特征,如水平线、垂直线或对角线。每个组的输出被馈入一个全连接的三层网络,最终层融合来自各个组的信息以实现整个数字的识别。
  • 卷积神经网络的优势 :这种层次结构的网络灵感来自人类视觉皮层,所有单元共享相同的权重,大大简化了训练过程,训练网络的第一层只需要更新12个单元(每个单元包含25个神经元)。这种通过复制和移动单个计算单元在图像上的数学过程称为卷积,该类型的网络被称为卷积神经网络。

2.4 成果与应用

贝尔实验室的卷积神经网络非常有效,准确率达到95%,接近人类水平。该团队的研究成果于1989年发表,系统由AT&T贝尔实验室商业化。据估计,在20世纪90年代末,美国10% - 20%的银行支票由卷积神经网络自动读取。

3. 深度学习的兴起

3.1 Geoffrey Hinton的背景

Geoffrey Hinton于1947年出生在战后的英国温布尔登,他在学校时数学并不出色,但进入剑桥大学后,先后学习物理、生理学、哲学,最终选择心理学。他希望理解人类思维的工作方式,认为哲学家和心理学家无法提供答案,于是转向计算机科学。毕业后,他做了一年木匠,然后在爱丁堡大学攻读博士学位,尽管导师不太支持,但他坚持研究ANNs。之后,他在多所大学工作,最终成为多伦多大学的教授。

3.2 深度学习的开端

  • 项目资助 :2004年,Hinton向加拿大高级研究所(CIFAR)提交了一个关于神经计算研究项目的资助申请,尽管当时其他人都在从事不同的研究,但他成功获得了资助。这笔资金用于举办一系列仅限邀请的聚会,让世界上一些顶尖的ANN研究人员交流想法。
  • 深度学习的提出 :2006年,Hinton、Simon Osindero和Yee-Whye Teh发表了一篇具有变革性的论文,标志着深度学习的开端。该论文描述了一个由三个全连接隐藏层组成的网络,由于参数过多,使用反向传播训练速度极慢。为解决这个问题,他们设计了一种新的预训练阶段,在反向传播之前快速找到一组良好的参数作为起点。

3.3 预训练与训练过程

  • 预训练阶段 :采用无监督训练,仅使用输入示例。将示例输入馈入网络,通过算法调整网络参数,使ANN学会检测输入中的重要模式,而不被告知这些模式与哪些类别相关。训练算法从输入层开始,一次只更新一层的参数,从输入向前增长网络参数,这种方法的计算复杂度远低于反向传播。
  • 监督训练阶段 :预训练完成后,网络能够区分输入数据集中最突出的模式,然后以预训练的参数为起点进行正常的监督训练(即反向传播),由于有了良好的起始点,反向传播完成训练所需的迭代次数大大减少。

3.4 手写数字识别实验

Hinton的团队选择手写数字识别作为研究对象,使用了LeCun、Corinna Cortes和Christopher Burges收集的MNIST数据集,该数据集包含70000个手写数字。实验得到的ANN准确率为89.75%,虽然不如LeCun的卷积神经网络,但证明了通过预训练可以训练深度全连接网络,为更深入和有效的网络发展开辟了道路。

3.5 深度学习的发展

在接下来的十年里,深度学习势头增强。更智能的算法降低了计算复杂度,更快的计算机减少了运行时间,更大的数据集允许调整更多参数,这些进步使研究人员能够构建更大、更深的网络。2010年,瑞士的一个研究团队训练了一个六层神经网络来识别数字,使用MNIST数据集并人工生成额外的数字图像,该网络包含5710个神经元,准确率达到99.65%,达到人类水平,这让人们意识到深度网络才是人工智能发展的方向,一场人工智能革命即将到来。

以下是反向传播训练过程的流程图:

graph LR
    A[开始] --> B[随机初始化网络参数]
    B --> C[从训练集选取输入]
    C --> D[前向传播计算输出]
    D --> E[计算实际输出与期望输出的误差]
    E --> F[根据误差更新网络参数]
    F --> G{是否完成所有训练数据?}
    G -- 否 --> C
    G -- 是 --> H{误差是否不再减少?}
    H -- 否 --> B
    H -- 是 --> I[训练结束]

训练数据集划分情况如下表所示:
| 数据集类型 | 用途 |
| ---- | ---- |
| 训练集 | 确定最佳参数值 |
| 验证集 | 评估性能和指导训练 |
| 测试集 | 训练完成后测量网络准确性 |

4. 深度学习的海啸:多领域的突破

4.1 语音识别领域的变革

在语音识别领域,60年来科技界一直在努力准确地将语音转换为文本。传统的最佳算法依赖傅里叶变换提取谐波振幅,再使用隐马尔可夫模型(HMMs)根据观察到的谐波内容和实际语音中声音序列的已知概率来确定发音的音素。

谷歌在Hinton实验室实习生Navdeep Jaitly的帮助下,对其生产中的语音识别系统进行了重大改造。他们拆除了一半的系统,并用一个四层的深度神经网络取而代之,形成了混合的ANN - HMM语音识别系统。该团队使用从Google Voice Search获取的5870小时录制语音以及从YouTube获取的1400小时对话对ANN进行训练。新的混合系统比谷歌旧的基于HMM的语音识别系统性能提高了4.7%,这在自动语音识别领域是一个巨大的进步。之后的五年里,谷歌不断扩展和改进其基于ANN的语音识别系统,到2017年,谷歌的语音识别系统准确率达到了95%。

4.2 图像识别领域的进展

2012年,Hinton的团队设计了一个用于识别静态图像中现实世界物体的深度神经网络——AlexNet。这个网络由首席设计师Alex Krizhevsky得名,包含650000个神经元和六千万个参数,有五层卷积层和三层全连接层。在训练过程中,他们引入了一种简单而有效的技术——Drop-out,即随机选择并沉默一些神经元,迫使网络将决策负载分散到更多神经元上,从而提高网络对输入变化的鲁棒性。

该团队将AlexNet参加了ImageNet大规模视觉识别挑战赛,数据集包含约120万张训练图像和1000个物体类别。AlexNet取得了惊人的成绩,前五准确率达到84.7%,误差率几乎是第二名系统的一半。

4.3 自然语言处理领域的突破

在蒙特利尔大学,由Yoshua Bengio领导的团队一直在研究如何将深度神经网络应用于文本处理。Bengio出生于1964年的法国巴黎,他在麦吉尔大学学习电子工程和计算机科学,获得了学士、硕士和博士学位。作为一名科幻迷,他在研究生阶段对神经网络研究产生了浓厚兴趣,并致力于构建自己的ANN。

Bengio的团队训练ANN来预测文本中单词序列的概率。2014年,谷歌借鉴了Bengio的工作,将其应用于文档翻译问题。谷歌将两个神经网络背靠背连接,第一个网络(编码器)将英文文本转换为抽象的数字向量,第二个网络(解码器)将该向量转换为法语。研究人员没有指定中间的数字向量,而是依靠训练过程来找到合适的表示。经过两年的努力,谷歌开发出了一个八层编码器和匹配的八层解码器的网络,在3600万个手动翻译的句子对上进行训练。新系统比之前的Google Translate生产系统性能大幅提升,翻译错误减少了60%,上线后双语用户明显感受到翻译质量的显著提高。

4.4 深度学习的广泛影响

深度学习的一系列成功引发了一场热潮。各大公司纷纷预见了深度学习驱动的众多新应用,如自动驾驶汽车、智能相机、下一代推荐系统、增强型网络搜索、准确的蛋白质结构预测、加速药物设计等。谷歌、Facebook、IBM、苹果、亚马逊、雅虎、推特、Adobe和百度等公司纷纷争抢深度学习人才,甚至有传言称神经网络领域的明星人才起薪高达七位数。Yann LeCun被任命为Facebook的AI研究总监,Andrew Ng加入百度担任首席科学家,65岁的Geoffrey Hinton成为谷歌的暑期实习生。

2015年,LeCun、Hinton和Bengio在《自然》杂志上发表论文,对深度学习的发展进行了综述。他们三人因在深度学习领域的杰出贡献,共同获得了2018年ACM图灵奖,并分享了谷歌赞助的100万美元奖金。

5. 对未来的思考

随着深度学习的巨大成功,一些人猜测人类水平的通用人工智能可能即将到来。然而,Yann LeCun对此持谨慎态度,他认为要实现人类水平的智能可能还有五十座“大山”要攀登,包括一些目前还未被发现的挑战。目前我们所拥有的只是复杂的模式识别引擎。

未来的发展方向可能需要一个ANN网络,并且可能需要对ANN进行根本性的改进。如今的ANN只是对生物神经网络的粗略近似,可能需要更逼真的模型,因为细节之处可能起着关键作用。对于计算机科学领域之外的人来说,2016年人工智能首次在某一狭窄领域展现出超人能力,登上了世界新闻媒体的头条,这也让更多人开始关注人工智能的发展。

深度学习在语音识别、图像识别和自然语言处理等领域的应用流程如下表所示:
| 应用领域 | 传统方法 | 深度学习方法 | 改进效果 |
| ---- | ---- | ---- | ---- |
| 语音识别 | 傅里叶变换 + 隐马尔可夫模型 | 混合ANN - HMM系统 | 性能提高4.7%,最终准确率达95% |
| 图像识别 | 无(传统方法效果不佳) | AlexNet(含Drop - out技术) | 前五准确率84.7%,误差率大幅降低 |
| 自然语言处理 | 传统句子分割和短语映射 | 双神经网络(编码器 - 解码器) | 翻译错误减少60% |

以下是深度学习发展历程的时间轴流程图:

graph LR
    A[20世纪70年代后] --> B[少数科学家坚持研究ANNs,多层网络训练难题待解]
    B --> C[1985 - 1986年]
    C --> D[反向传播算法确立]
    D --> E[1989年]
    E --> F[Yann LeCun卷积神经网络用于手写数字识别]
    F --> G[2004 - 2006年]
    G --> H[Geoffrey Hinton开启深度学习]
    H --> I[2010年]
    I --> J[瑞士团队六层神经网络达人类识别水平]
    J --> K[2012 - 2014年]
    K --> L[语音、图像、自然语言处理领域深度学习突破]
    L --> M[2015 - 2018年]
    M --> N[深度学习热潮,三人获图灵奖]

总之,人工神经网络从早期的训练难题逐步发展到如今深度学习的广泛应用,经历了漫长而曲折的过程,未来也充满了无限的可能性和挑战。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值