（系列笔记）28.深度学习（上）_rina dechter-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_41909317/article/details/88680547

本文回顾了神经网络的历史，从Warren McCulloch和Walter Pitts的神经元模型到Frank Rosenblatt的感知机，再到David Rumelhart等人的反向传播算法。深度学习的概念在2006年因Hinton的预训练方法而兴起，特别是深度神经网络（DNN）的发展。文章介绍了DNN、卷积神经网络（CNN）、循环神经网络（RNN）和长短期记忆（LSTM）等深度学习网络的基本结构和应用场景，展示了它们在图像识别、语音处理和自然语言理解等领域的应用及其优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

几种深度学习网络

神经网络的历史沿革

在这里插入图片描述

缘起

1943年，神经生理学家和神经元解剖学家 Warren McCulloch 和数学家 Walter Pitts 提出了神经元的数学描述和结构，并且证明了只要有足够的简单神经元，在它们互相连接并同步运行的情况下，可以模拟任何计算函数。

这样开创性的工作被认为是 NN 的起点。

几度兴衰

1958年，计算机学家 Frank Rosenblatt 提出了一种具有三级结构的 NN，称为“感知机”（Perceptron）。它实际上是一种二元线性分类器，可以被看作一种单层 NN（参见下图）。
在这里插入图片描述
Rosenblatt 还给出了相应的感知机学习算法。

尽管结构简单，感知机能够学习并解决相当复杂的问题，在60年代掀起了 NN 研究的第一次热潮。很多人都认为只要使用成千上万的神经元，他们就能解决一切问题。

这股热潮持续了10年，终于因为感知机的作用终归有限（比如它不能处理线性不可分问题），在实践中无法产生实际的价值，而导致了 NN 发展的第一次低潮期。

直到80年代，NN 的研究才开始复苏。

1986年，David Rumelhart、Geoffrey Hinton 和 Ronald Williams 将反向传播算法用于多层 NN 的训练，带来了 NN 的第二春。

然而，训练 NN，最开始都是随机初始化权值。当 NN 的层数稍多之后，随机的初始值很可能导致反复迭代仍不收敛——根本训练不出来可用的 NN。

进一步的研究和实际应用都受阻。

基于统计的学习模型有严格的理论基础，可以在数学上严格地被证明为是凸优化问题。特别是在 SVM/SVR 出现后，用统计学习模型执行复杂任务也能得到不错的结果。

而 NN 缺少数学理论支持——它的优化过程不是凸优化，根本不能从数学原理上证明最优解的存在；就算训练出了结果，也无法解释自己为什么有效；在实际运用的效果又不够好。

如此种种，NN 研究进入第二次低谷。此后十几年的时间里，大多数研究人员都放弃了 NN。

从NN到DNN

Hinton 却矢志不渝地坚持着对 NN 的研究。终于在2006年迎来了划时代的成果。这一年，Hinton 发表了经典论文“Reducing the Dimensionality of Data with Neural Networks”。

这篇论文提出了预训练（Pre-training）的方法（可以简单地想象成是“一层一层”地训练），分层初始化，使得深层神经网络（Deep Neural Network，DNN）的训练变得可能——训练 NN 不必再局限在很少的一两层，四五层甚至八九层都成为了可能。

由此，NN 重新回到大众的视线中，从此 NN 进入了 DNN 时代。

深度学习（Deep Learning）

什么是深度学习

现在我们说的深度学习一词，其实在30多年前就已经被提出来了。Rina Dechter 在1986年的论文中就提到了“ Shallow Learning”和“Deep Learning”。不过直到2000年，这个说法才被引入到 NN 领域。

现在我们说的深度学习指利用多层串联的非线性处理单元，进行特征提取和转化的机器学习算法。其结构中的不同层级对应于不同程度的数据抽象。

DNN 就是一种典型的深度学习模型。其他的，像 CNN、RNN、LSTM 等，都属于这一领域。

如今，深度学习被看作是通向人工智能的重要一步，也是人工智能实现技术中的热门。

深度学习的爆发

说到深度学习的爆发，可谓天时地利人和。

天时：互联网普及，数据井喷；大数据时代来临，获取、存储和处理数据的技术蓬勃发展。
地利：GPU 被应用到深度学习模型的训练和推断中，极大地提升了运算能力。
人和：Hinton 老先生的几篇论文，将研究人员的焦点吸引到了 DNN 等 DL 技术上。

几种因素叠加，使得深度学习技术在许多实践领域（例如语音识别、语音合成、手写识别、人脸识别、图片分类、情感分析等）大幅提高了自动化的准确率，从而引起了深度学习的大爆发。

不同种类的深度学习网络

下面我们将介绍几种深度学习领域中比较常用的网络结构。

这几种结构是深度学习中最基础最常见的一小部分内容，而且在此仅仅是告诉大家“有什么”，对于它们“是什么”只限于提及，不做展开介绍。

卷积神经网络（Convolutional Neural Network, CNN）

CNN 是一种前馈神经网络，通常由一个或多个卷积层（Convolutional Layer）和全连接层（Fully Connected Layer，对应经典的 NN）组成，此外也会包括池化层（Pooling Layer）。

CNN 的结构使得它易于利用输入数据的二维结构。

注意：前馈神经网络（Feedforward NN）指每个神经元只与前一层的神经元相连，数据从前向后单向传播的 NN。其内部结构不会形成有向环（对比后面要讲到的 RNN/LSTM）。

它是最早被发明的简单 NN 类型，前面讲到的 NN、DNN 都是前馈神经网络。

每个卷积层由若干卷积单元组成——可以想象成经典 NN 的神经元，只不过激活函数变成了卷积运算。

卷积运算是有其严格的数学定义的。不过在 CNN 的应用中，卷积运算的形式是数学中卷积定义的一个特例，它的目的是提取输入的不同特征。

一般情况下，从直观角度来看，CNN 的卷积运算，就是下图这样：在这里插入图片描述
上图中左侧的蓝色大矩阵表示输入数据，在蓝色大矩阵上不断运动的绿色小矩阵叫做卷积核，每次卷积核运动到一个位置，它的每个元素就与其覆盖的输入数据对应元素相乘求积，然后再将整个卷积核内求积的结果累加，结果填注到右侧红色小矩阵中。