人工神经网络的历史须知

原创于 2024-12-15 22:04:28 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

人工神经网络(ANN) 是使用机器学习创建的模型，用于执行多项任务。它们的创作灵感来自生物神经回路。[ 1 ] [ a ]虽然 ANN 的一些计算实现与数学中的早期发现有关，但 ANN 的第一个实现是由心理学家Frank Rosenblatt实现的，他开发了感知器。[ 1 ] 20 世纪 70 年代和 80 年代对 ANN 的研究很少，AAAI称这一时期为“人工智能寒冬”。[ 2 ]

后来，硬件的进步和反向传播算法的发展，以及循环神经网络和卷积神经网络，重新引发了人们对 ANN 的兴趣。2010 年代出现了一种名为AlexNet的深度神经网络（即具有多层的网络）。[ 3 ]它的表现远远优于其他图像识别模型，被认为开启了正在进行的AI 春天，并进一步增加了人们对深度学习的兴趣。[ 4 ] Transformer架构于 2017 年首次被描述，作为一种教授 ANN 语言语法依赖关系的方法，[ 5 ]并且是GPT-4等大型语言模型使用的主要架构。扩散模型于 2015 年首次被描述，并成为2020 年代DALL-E等图像生成模型的基础。

感知器和其他早期神经网络

最简单的前馈网络由单个权重层组成，没有激活函数。它只是一个线性映射，训练它就是线性回归。Adrien -Marie Legendre（1805 年）和Carl Friedrich Gauss （1795 年）使用最小二乘法线性回归来预测行星运动。[ 6 ] [ 7 ] [ 8 ] [ 9 ]

神经活动中内在思想的逻辑演算（沃伦·麦卡洛克和沃尔特·皮茨，1943 年）使用鲁道夫·卡尔纳普和《数学原理》的符号逻辑研究了几种神经网络的抽象模型。该论文认为，几种神经网络的抽象模型（有些可以学习，有些则不能学习）具有与图灵机相同的计算能力。 [ 10 ]该模型为研究分为两种方法铺平了道路。一种方法侧重于生物过程，而另一种方法侧重于神经网络在人工智能中的应用。这项工作导致了对神经网络及其与有限自动机的联系的研究。 [ 11 ]

20 世纪 40 年代初，D.O. Hebb [ 12 ]基于神经可塑性机制创建了一个学习假说，即后来的赫布学习。赫布学习是一种无监督学习。后来演变为长期增强模型。1948 年，研究人员开始利用图灵的 B 型机器将这些想法应用于计算模型。B. Farley 和Wesley A. Clark [ 13 ] (1954) 首次使用计算机器（当时称为“计算器”）来模拟赫布网络。其他神经网络计算机器由Rochester、Holland、Habit 和 Duda (1956)创建。 [ 14 ]

Frank Rosenblatt [ 1 ] (1958) 创建了感知器，一种模式识别算法。多层感知器(MLP) 包含 3 层：输入层、具有随机权重且未学习的隐藏层和输出层。Rosenblatt 使用数学符号描述了基本感知器中没有的电路，例如当时神经网络无法处理的异或电路。1959 年，诺贝尔奖获得者 Hubel和Wiesel提出了一种生物模型，该模型基于他们发现的初级视觉皮层中的两种细胞：简单细胞和复杂细胞。[ 15 ]他后来在 1962 年出版的一本书中也介绍了各种变体和计算机实验，包括一个四层感知器的版本，其中最后两层具有学习到的权重（因此是一个真正的多层感知器）。[ 16 ]：第 16 节一些人认为，1962 年的这本书开发并探索了当今深度学习系统的所有基本要素。[ 17 ]

有人说，在Marvin Minsky和Papert Perceptrons（1969）之后，研究陷入了停滞。[ 18 ]

1967 年，Alexey Ivakhnenko和 Lapa发表了一种用于训练任意深度神经网络的组数据处理方法，他们将其视为多项式回归的一种形式 [ 19 ] ，或 Rosenblatt 感知器的推广[ 20 ] 。1971年的一篇论文描述了一个用这种方法训练的八层深度网络。[ 21 ]

第一个通过随机梯度下降训练的深度学习多层感知器 [ 22 ]由Shun'ichi Amari于 1967 年发表。[ 23 ]在 Amari 的学生 Saito 进行的计算机实验中，一个具有两个可修改层的五层 MLP 学习了内部表示，以对非线性可分模式类进行分类。[ 24 ]随后硬件和超参数调整的发展使得端到端随机梯度下降成为目前占主导地位的训练技术。

反向传播

反向传播是 Gottfried Wilhelm Leibniz于 1673 年[ 25 ]提出的链式法则在可微分节点网络上的有效应用。“反向传播误差”这个术语实际上是由 Rosenblatt 于 1962 年引入的， [ 16 ]但他不知道如何实现它，尽管Henry J. Kelley早在 1960 年就在控制理论的背景下连续提出了反向传播的前身。[ 26 ]反向传播的现代形式在 20 世纪 70 年代初经过多次开发。最早发表的实例是Seppo Linnainmaa的硕士论文（1970 年）。[ 27 ] [ 28 ] Paul Werbos于 1971 年独立开发了它，[ 29 ]但直到 1982 年才得以发表。[ 30 ] 1986 年，David E. Rumelhart等人推广了反向传播。

循环网络架构

RNN 的一个起源是统计力学。Ising模型由Wilhelm Lenz [ 32 ]和Ernst Ising [ 33 ]在 20 世纪 20 年代[ 34 ]开发，是平衡状态下磁体的简单统计力学模型。1963年， Glauber研究了 Ising 模型随时间的变化，将其视为向平衡演化的过程（Glauber 动力学），并加入了时间因素。[ 35 ] 1972 年， Shun'ichi Amari提出用赫布学习规则修改 Ising 模型的权重，将其作为联想记忆模型，并加入了学习因素。[ 36 ]这就是后来流行的Hopfield 网络（1982 年）。[ 37 ]

RNN 的另一个起源是神经科学。“循环”一词用于描述解剖学中的环状结构。1901 年，卡哈尔在小脑皮层中观察到“循环半圆” 。[ 38 ] 1933 年，洛伦特·德诺通过高尔基的方法发现了“循环、相互连接” ，并提出兴奋环路可以解释前庭眼反射的某些方面。[ 39 ] [ 40 ] Hebb认为“混响电路”可以解释短期记忆。[ 41 ]（McCulloch & Pitts 1943）考虑了包含循环的神经网络，并指出此类网络的当前活动可能会受到过去无限期活动的影响。

两个早期有影响力的作品是Jordan 网络（1986 年）和Elman 网络（1990 年），它们将 RNN 应用于认知心理学的研究。1993 年，一个神经历史压缩系统解决了一项“非常深度学习”的任务，该任务要求RNN 中1000 多个后续层随时间展开。

长短期记忆（LSTM）

Sepp Hochreiter的毕业论文（1991 年）[ 43 ]提出了神经历史压缩器，并识别和分析了消失梯度问题。[ 43 ] [ 44 ] 1993 年，神经历史压缩器系统解决了“非常深度学习”的任务，该任务需要RNN 中随时间展开的1000 多个后续层。 [ 45 ] [ 42 ] Hochreiter 提出了递归残差连接来解决消失梯度问题。这导致了1995 年发布的长短期记忆(LSTM)。 [ 46 ] LSTM 可以学习“非常深度学习”任务[ 47 ] ，这些任务具有较长的信用分配路径，需要记忆数千个离散时间步之前发生的事件。该 LSTM 还不是现代架构，它需要一个 1999 年推出的“遗忘门” [ 48 ] ，后来成为标准的 RNN 架构。

长短期记忆(LSTM) 网络由 Hochreiter和Schmidhuber于 1995 年发明，并在多个应用领域创下了准确率记录。[ 46 ] [ 49 ]它成为 RNN 架构的默认选择。

2006 年左右，LSTM 开始彻底改变语音识别，在某些语音应用方面的表现优于传统模型。[ 50 ] [ 51 ] LSTM 还改进了大词汇量语音识别[ 52 ] [ 53 ]和文本到语音合成[ 54 ]，并用于Google 语音搜索和Android 设备上的听写功能。[ 55 ]

LSTM 在机器翻译、语言建模和多语言处理方面取得了突破性进展。[ 58 ] LSTM 与卷积神经网络(CNN) 相结合，改进了自动图像字幕制作能力。

卷积神经网络 (CNN)

CNN 架构的起源是1980 年Kunihiko Fukushima发明的“神经认知机” [ 60 ] 。 [ 61 ] [ 62 ] 它受到Hubel和Wiesel在 20 世纪 50 年代和 60 年代的研究启发，他们的研究表明，猫的视觉皮层包含可单独对视野的一小部分区域作出反应的神经元。神经认知机在 CNN 中引入了两种基本类型的层：卷积层和下采样层。卷积层包含的单元的感受野覆盖前一层的块。这种单元的权重向量（自适应参数集）通常称为过滤器。单元可以共享过滤器。下采样层包含的单元的感受野覆盖先前卷积层的块。这样的单元通常计算其块中单元激活的平均值。即使物体发生了移动，这种下采样也有助于正确对视觉场景中的物体进行分类。

1969 年，福岛邦彦还引入了ReLU（整流线性单元）激活函数。[ 63 ] [ 64 ]整流器已成为 CNN 和深度神经网络中最流行的激活函数。[ 65 ]

时间延迟神经网络( TDNN) 由Alex Waibel于 1987 年提出，是最早的 CNN 之一，因为它实现了移位不变性。[ 66 ]它通过结合使用权重共享和反向传播训练来实现这一点。[ 67 ]因此，虽然它也使用像神经认知机中的金字塔结构，但它对权重进行了全局优化，而不是局部优化。[ 66 ]

1988 年，张伟等人将反向传播应用于 CNN（一种简化的 Neocognitron，在图像特征层和最后的全连接层之间具有卷积互连）进行字母识别。他们还提出了一种使用光学计算系统实现 CNN 的方法。[ 68 ] [ 69 ]

Kunihiko Fukushima于 1980 年发表了神经认知机。 [ 70 ] 最大池化出现在 1982 年关于神经认知机的出版物中。[ 71 ] 1989 年，Yann LeCun等人训练了一个 CNN，目的是识别邮件上的手写邮政编码。虽然算法有效，但训练需要 3 天。[ 72 ] [ 73 ]它使用了最大池化。学习是全自动的，比手动系数设计表现更好，并且适用于更广泛的图像识别问题和图像类型。随后，Wei Zhang 等人修改了他们的模型，删除了最后一个完全连接的层，并将其应用于 1991 年的医学图像对象分割[ 74 ]和 1994 年的乳房 X 光检查中的乳腺癌检测。[ 75 ]

在神经认知机的一个变体——cresceptron 中，J. Weng 等人没有使用 Fukushima 的空间平均法，而是使用了最大池化，其中下采样单元计算其块中单元激活值的最大值。[ 76 ] [ 77 ] [ 78 ] [ 79 ]

LeNet-5 是Yann LeCun等人于 1998 年发明的 7 级 CNN ， [ 80 ]用于对数字进行分类，多家银行已采用该技术识别 32x32 像素数字化支票（英式英语：支票）上的手写数字。处理高分辨率图像需要更大、更多层的 CNN，因此该技术受到计算资源可用性的限制。

2010 年，通过最大池化的反向传播训练由 GPU 加速，并被证明比其他池化变体表现更好。[ 81 ] Behnke（2003 年）在图像重建和人脸定位等问题上仅依赖梯度的符号（Rprop）[ 82 ]。Rprop 是由 Martin Riedmiller 和 Heinrich Braun 于 1992 年创建的一阶优化算法。 [ 83 ]

深度学习

深度学习革命始于基于 CNN 和 GPU 的计算机视觉。

尽管通过反向传播训练的 CNN 已经存在了几十年，而 NN 的 GPU 实现也已经存在多年，[ 84 ]包括 CNN，[ 85 ]但为了在计算机视觉领域取得进展，需要在 GPU 上更快地实现 CNN。后来，随着深度学习的普及，专门为深度学习开发了专用硬件和算法优化。[ 86 ]

深度学习革命的一个关键进步是硬件的进步，尤其是 GPU。一些早期的研究可以追溯到 2004 年。[ 84 ] [ 85 ] 2009 年，Raina、Madhavan 和Andrew Ng报告了一个在 30 个 Nvidia GeForce GTX 280 GPU上训练的 100M 深度信念网络，这是基于 GPU 的深度学习的早期演示。他们报告称，训练速度提高了 70 倍。[ 87 ]

2011 年，由 Dan Ciresan、Ueli Meier、Jonathan Masci、Luca Maria Gambardella和Jürgen Schmidhuber共同发明的 CNN DanNet [ 88 ] [ 89 ]在视觉模式识别竞赛中首次取得超越人类的表现，性能比传统方法高出 3 倍。[ 47 ]随后，该 CNN 赢得了更多比赛。[ 90 ] [ 91 ]他们还展示了 GPU 上的最大池化CNN如何显著提高性能。[ 92 ]

许多发现都是经验性的，侧重于工程。例如，2011 年，Xavier Glorot、Antoine Bordes 和Yoshua Bengio发现ReLU [ 63 ]比 2011 年之前广泛使用的激活函数效果更好。

2012 年 10 月，Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton开发的AlexNet [ 93 ]以显著优势击败浅层机器学习方法，赢得了大规模ImageNet 竞赛。进一步的渐进式改进包括 Karen Simonyan和Andrew Zisserman开发的 VGG-16 网络[ 94 ]以及 Google 的Inceptionv3。[ 95 ]

图像分类的成功随后扩展到更具挑战性的任务，即为图像生成描述（标题），通常以 CNN 和 LSTM 的组合形式进行。[ 96 ] [ 97 ] [ 98 ]

2014 年，最先进的技术是训练具有 20 到 30 层的“非常深的神经网络”。[ 99 ]堆叠太多层会导致训练准确率急剧下降，[ 100 ]即所谓的“退化”问题。[ 101 ] 2015 年，两种用于训练非常深的网络的技术同时开发出来：高速公路网络 [ 102 ]和残差神经网络(ResNet)。[ 103 ] ResNet 研究团队尝试通过实证测试各种训练更深层网络的技巧来训练更深层的网络，直到他们发现了深度残差网络架构。

生成对抗网络

1991 年，Juergen Schmidhuber发表了《人工智能的好奇心》，神经网络是一场零和博弈。[ 105 ]第一个网络是一个生成模型，它对输出模式的概率分布进行建模。第二个网络通过梯度下降学习，预测环境对这些模式的反应。GAN 可以看作是一种情况，其中环境反应是 1 还是 0，取决于第一个网络的输出是否在给定的集合中。[ 106 ]它被扩展为“可预测性最小化”，以创建输入模式的解开表示。[ 107 ] [ 108 ]

其他人也有类似的想法，但没有以类似的方式发展它们。Olli Niemitalo 在 2010 年的一篇博客文章中发表了一个涉及对抗网络的想法。[ 109 ]这个想法从未实现过，也不涉及生成器中的随机性，因此不是一个生成模型。它现在被称为条件 GAN 或 cGAN。[ 110 ] 2013 年，Li、Gauci 和 Gross 使用了一种类似于 GAN 的想法来模拟动物行为。[ 111 ]

GAN 的另一个灵感来源是噪声对比估计[ 112 ]，它使用与 GAN 相同的损失函数，Goodfellow 在 2010-2014 年攻读博士学位期间对此进行了研究。

Ian Goodfellow等人，2014 年[ 113 ]提出的生成对抗网络(GAN)在 2014-2018 年期间成为生成模型领域的最先进技术。Nvidia的StyleGAN (2018) [ 114 ]基于 Tero Karras 等人的 Progressive GAN 实现了出色的图像质量。[ 115 ]在这里，GAN 生成器以金字塔方式从小到大增长。GAN 的图像生成获得了广泛的成功，并引发了有关深度伪造的讨论。[ 116 ] 从那时起，扩散模型（2015）[ 117 ]在生成模型中取代了 GAN，例如DALL·E 2（2022 年）和稳定扩散（2022 年）。

注意力机制与Transformer

主要文章：Attention（机器学习）和Transformer（深度学习架构）

人类的选择性注意已在神经科学和认知心理学中得到研究。[ 118 ]鸡尾酒会效应（Colin Cherry ，1953 年）研究了听觉的选择性注意。[ 119 ]（Donald Broadbent，1958 年）提出了注意的过滤模型。[ 120 ] 20 世纪 60 年代，乔治·斯珀林（George Sperling ）的部分报告范式研究了视觉的选择性注意。人们还注意到，扫视控制受到认知过程的调节，因为眼睛优先移向高显著性区域。由于眼球的中央凹很小，眼睛无法一次清晰地分辨所有的视野。使用扫视控制可以让眼睛快速扫描场景的重要特征。[ 121 ]

这些研究启发了算法，例如Neocognitron的变体。[ 122 ] [ 123 ]相反，神经网络的发展启发了生物视觉注意力的电路模型。[ 124 ] [ 125 ]

注意力机制的一个关键方面是使用乘法运算，这种运算曾在高阶神经网络[ 126 ] 、乘法单元[ 127 ] 、sigma-pi 单元[ 128 ] 、快速权重控制器[ 129 ]和超网络[ 130 ]的名下被研究过。

反复关注

在深度学习时代，注意力机制被开发出来解决编码-解码中的类似问题。[ 131 ]

编码器-解码器序列传导的概念在 2010 年代初就已经发展起来。最常被引用为 seq2seq 的创始人的是 2014 年的两篇论文。[ 132 ] [ 133 ] seq2seq架构采用两个 RNN（通常是 LSTM），一个“编码器”和一个“解码器”，用于序列传导，例如机器翻译。它们成为机器翻译领域的最先进技术，并在注意力机制和Transformer的发展中发挥了重要作用。

2015 年，人们提出了一个图像字幕模型，其灵感来自 seq2seq 模型。[ 134 ]该模型将输入图像编码为固定长度的向量。(Xu 等人 2015)、[ 135 ]引用 (Bahdanau 等人 2014)、[ 136 ]将 seq2seq 模型中使用的注意力机制应用于图像字幕。

变压器

seq2seq 模型的一个问题是它们使用了循环神经网络，而循环神经网络无法并行化，因为编码器和解码器都会逐个标记地处理序列。可分解注意力机制试图通过并行处理输入序列来解决此问题，然后再计算“软对齐矩阵”（“对齐”是 (Bahdanau 等人，2014) [ 136 ]使用的术语）。这允许并行处理。

在此期间，人们还提出了使用注意力机制进行自注意力，而不是在编码器-解码器（交叉注意力）中使用，例如在可微分神经计算机和神经图灵机中。[ 137 ]这被称为内部注意力[ 138 ]，其中 LSTM 在对输入序列进行编码时会用记忆网络进行增强。

这些发展思路被整合到了 Transformer 架构中，并发表于《Attention Is All You Need》（2017 年）。随后，注意力机制在 Transformer 架构的框架内得到了扩展。

带注意力机制的 Seq2seq 模型仍然面临与循环网络相同的问题，即难以并行化，这阻碍了它们在 GPU 上加速。2016 年，可分解注意力机制将注意力机制应用于易于并行化的前馈网络。 [ 139 ]其中一位作者 Jakob Uszkoreit 认为，没有循环的注意力机制就足以进行语言翻译，因此标题为“注意力就是你所需要的一切”。[ 140 ]

2017 年，原始（100M 大小）编码器-解码器 Transformer 模型在《Attention is all you need》论文中被提出。当时，研究的重点是改进机器翻译的seq2seq，通过删除其循环来并行处理所有 token，但保留其点积注意力机制以保持其文本处理性能。[ 141 ]其可并行性是其在大型神经网络中广泛使用的重要因素。

无监督和自监督学习

自组织映射

自组织映射(SOM) 由 Teuvo Kohonen于 1982 年提出。[ 143 ] [ 144 ] SOM 是受神经生理学启发的[ 145 ] 人工神经网络，可以学习高维数据的低维表示，同时保留数据的拓扑结构。它们使用竞争学习进行训练。

SOM 创建的内部表征让人联想到皮质侏儒，这是人体的扭曲表征，基于人类大脑中用于处理身体不同部位感觉功能的区域和比例的神经“地图” 。

玻尔兹曼机

1985 年至 1995 年间，受统计力学的启发， Terry Sejnowski、Peter Dayan、Geoffrey Hinton等人开发了几种架构和方法，包括玻尔兹曼机 [ 146 ] 、限制玻尔兹曼机 [ 147 ] 、亥姆霍兹机[ 148 ]和唤醒-睡眠算法。[ 149 ]这些都是为深度生成模型的无监督学习而设计的。然而，与反向传播相比，这些算法的计算成本更高。玻尔兹曼机器学习算法发表于 1985 年，曾一度流行，但在 1986 年被反向传播算法所取代。（第 112 页[ 150 ]）。

Geoffrey Hinton等人 (2006) 提出使用连续的二进制或实值潜在变量层来学习高级内部表示，并使用受限玻尔兹曼机 [ 151 ]对每一层进行建模。此 RBM 是一种生成随机前馈神经网络，可以学习其输入集的概率分布。一旦学习了足够多的层，就可以将深度架构用作生成模型，方法是在从顶层特征激活向下采样模型（“祖先传递”）时重现数据。[ 152 ] [ 153 ]

深度学习

2012 年，吴恩达 (Andrew Ng)和Jeff Dean创建了一个 FNN，它仅通过观看 YouTube视频中未标记的图像，就能学会识别更高级的概念，比如猫。

其他方面

知识提炼

知识蒸馏或模型蒸馏是将知识从大型模型转移到较小模型的过程。使用一个神经网络的输出来训练另一个神经网络的想法被研究为师生网络配置。[ 155 ] 1992 年，几篇论文研究了师生网络配置的统计力学，其中两个网络都是委员会机器[ 156 ] [ 157 ]或都是奇偶校验机器。[ 158 ]

另一个早期的网络蒸馏示例也发表于 1992 年，属于循环神经网络(RNN)领域。该问题是序列预测。它由两个 RNN 解决。其中一个（“雾化器”）预测序列，另一个（“分块器”）预测雾化器的错误。同时，雾化器预测分块器的内部状态。在雾化器成功预测分块器的内部状态后，它会开始修复错误，很快分块器就会被淘汰，最终只剩下一个 RNN。[ 159 ]

一种相关的方法是模型压缩或修剪，即缩小经过训练的网络的大小。它受到神经生物学研究的启发，这些研究表明人类大脑对损伤具有抵抗力，并在 20 世纪 80 年代通过偏置权重衰减[ 160 ]和最佳脑损伤等方法进行了研究。[ 161 ]