深度学习:从理论到应用的全面剖析
1. 反向传播算法(BP)的发展历程
反向传播算法(BP)的连续形式早在20世纪60年代初就已被推导出来(Kelley 1960; Bryson 1961; Bryson and Ho 1969)。1962年,Dreyfus仅基于链式法则对BP进行了优雅的推导。1970年,Linnainmaa发表了适用于离散稀疏网络的现代高效版本的BP(包括FORTRAN代码),此时计算输出误差相对于每个权重的导数的复杂度与权重数量成正比,这一方法沿用至今。1973年,Dreyfus利用BP按梯度比例改变控制器的权重。到1980年,自动微分可以为任何可微图推导BP(Speelpenning 1980)。1982年,Werbos发表了BP在神经网络(NNs)中的首次应用,扩展了他1974年论文中的思想,但当时还没有Linnainmaa的现代高效BP形式。
在1980 - 1990年期间,计算机速度比1960 - 1970年快了10000倍,并且在学术实验室中广泛可用。计算实验表明,NNs中的BP确实可以在NNs的隐藏层中产生有用的内部表示(Rumelhart et al. 1986)。1994年,Wan制作出第一个在有秘密测试集的受控模式识别竞赛中获胜的BP训练的NN。1998年,Amari描述了基于自然梯度的NNs的BP。到2003年,基于BP的深度标准前馈神经网络(FNNs)最多可达七层,已成功用于对高维数据进行分类(例如,Vieira和Barradas 2003)。
2000年代,计算硬件的速度比20世纪80年代又快了10000倍。廉价的大规模并行图形处理单元(GPUs,最初为视频游戏开发)开始彻底改变NN研究。在GPU上实现的标准FNN比在CPU上快20倍
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



