深度学习02-神经网络和反向传播算法-理论篇_反向传播神经网络收敛性理论分析-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42673117/article/details/112673101

本文深入探讨了神经网络的结构，包括全连接网络的特点，以及神经元的计算公式。反向传播算法在训练过程中的作用被详细阐述，解释了误差如何从输出层反向传播以更新权重。同时，指出了神经网络的优缺点，如适应多特征问题、非线性映射能力，以及训练速度慢和可能陷入局部最优等问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

理论篇

1、神经网络
在这里插入图片描述

神经网络其实就是按照一定规则连接起来的多个神经元。上图展示了一个全连接(full connected, FC)神经网络，通过观察上面的图，我们可以发现它的规则包括：
神经元按照层来布局。最左边的层叫做输入层，负责接收输入数据；最右边的层叫输出层，我们可以从这层获取神经网络输出数据。输入层和输出层之间的层叫做隐藏层，因为它们对于外部来说是不可见的。
同一层的神经元之间没有连接。
第N层的每个神经元和第N-1层的所有神经元相连(这就是full connected的含义)，第N-1层神经元的输出就是第N层神经元的输入。
每个连接都有一个权值。
上面这些规则定义了全连接神经网络的结构。事实上还存在很多其它结构的神经网络，比如卷积神经网络(CNN)、循环神经网络(RNN)，他们都具有不同的连接规则。

2、神经网络某一节点输出值计算公式：
在这里插入图片描述
其中W为连接此节点的元素的权值，x为输入向量，a为输出向量

式2说明神经网络的每一层的作用实际上就是先将输入向量左乘一个数组进行线性变换，得到一个新的向量，然后再对这个向量逐元素应用一个激活函数。

3、神经网络的训练

我们可以说神经网络是一个模型，那么这些权值就是模型的参数，也就是模型要学习的东西。然而，一个神经网络的连接方式、网络的层数、每层的节点数这些参数，则不是学习出来的，而是人为事先设置的。对于这些人为设置的参数，我们称之为超参数(Hyper-Parameters)。

反向传播算法：
(1)首先使用前向传播计算出最终结果
(2)使用如下公式计算每个节点的误差值
在这里插入图片描述
对于隐藏层节点：

意思就是从后向前传播误差值，将后一层每个节点计算出的误差值乘以其权重传到前面这一层来，当成这一层的误差值

(3)误差值计算出来后使用梯度下降等算法更新权重
在这里插入图片描述
总结：

我们已经介绍了神经网络每个节点误差项的计算和权重更新方法。显然，计算一个节点的误差项，需要先计算每个与其相连的下一层节点的误差项。这就要求误差项的计算顺序必须是从输出层开始，然后反向依次计算每个隐藏层的误差项，直到与输入层相连的那个隐藏层。这就是反向传播算法的名字的含义。当所有节点的误差项计算完毕后，我们就可以根据式5来更新所有的权重

4、反向传播推导(省略)