神经网络及卷积神经网络的训练——反向传播算法

最新推荐文章于 2025-07-07 14:33:57 发布

原创

最新推荐文章于 2025-07-07 14:33:57 发布 · 3.1w 阅读

43 ·

CC 4.0 BY-SA版权

文章标签：

#后向传播 #深度学习 #卷积神经网络

这篇博客详细介绍了神经网络和卷积神经网络的训练过程，重点讲解了反向传播算法。从单个神经元开始，解释了如何求取代价函数关于参数的梯度，然后扩展到多层神经网络，阐述了误差信号如何通过网络层进行反向传播。接着，博主探讨了卷积神经网络中卷积和池化层的导数计算，以及它们在反向传播中的应用。通过这些理论，可以使用梯度下降等方法找到使代价函数最小化的最优参数，完成神经网络的训练。

神经网络的训练过程，就是通过已有的样本，求取使代价函数最小化时所对应的参数。代价函数测量的是模型对样本的预测值与其真实值之间的误差，最小化的求解一般使用梯度下降法（Gradient Decent）或其他与梯度有关的方法。其中的步骤包括：

初始化参数。
求代价函数关于参数的梯度。
根据梯度更新参数的值。
经过迭代以后取得最佳参数，从而完成神经网络的训练。
其中最重要的步骤就是求梯度，这可以通过反向传播算法（back propagation）来实现。

单个神经元的训练

单个神经元的结构如下图。假设一个训练样本为 $(x,y)$ 。在下图中， $x$ 是输入向量，通过一个激励函数 $h_{w,b}(x)$ 得到一个输出 $a$ ， $a$ 再通过代价函数得到 $J$ 。

$f(W,b,x)=a=sigmoid(\sum_{i}{x_iw_i+b})$ （公式1）
$J(W,b,x,y)=\frac{1}{2}\|y-h_{w,b}(x)\|^2$ （公式2）

这里激励函数以使用sigmoid为例，当然也可以使用其他的比如tanh或者rectived linear unit函数。要求的参数为 $W$ 和 $b$ 。

通过定义变量 $z=\sum_{i}{x_iw_i+b}$ 可以将激励函数看做是两部分，如下图右图所示。第一部分是仿射求和得到 $z$ , 第二部分是通过sigmoid得到 $a$ 。
这里写图片描述

训练过程中，要求代价函数 $J$ 关于 $W$ 和 $b$ 的偏导数。先求 $J$ 关于中间变量 $a$ 和 $z$ 的偏导：

$\delta^{(a)}=\frac{\partial}{\partial{a}}J(W,b,x,y)=-(y-a)$ （公式3）
$\delta^{(z)}=\frac{\partial}{\partial{z}}J(W,b,x,y)=\frac{\partial{J}}{\partial{a}}\frac{\partial{a}}{\partial{z}}=\delta^{(a)}a(1-a)$ (公式4)

公式（4）中根据sigmoid函数的定义 $\sigma(z)=\frac{1}{1+e^{-z}}$ 可得 $\frac{\partial{a}}{\partial{z}}=a(1-a)$ 。

再根据链导法则，可以求得 $J$ 关于 $W$ 和 $b$ 的偏导数，即得 $W$ 和 $b$ 的梯度。

$\nabla_WJ(W,b,x,y)=\frac{\partial}{\partial{W}}J=\frac{\partial{J}}{\partial{z}}\frac{\partial{z}}{\partial{W}}=\delta^{(z)}x^T$ (公式5)

$\nabla_bJ(W,b,x,y)=\frac{\partial}{\partial{b}}J=\frac{\partial{J}}{\partial{z}}\frac{\partial{z}}{\partial{b}}=\delta^{(z)}$ (公式6)

在这个过程中，先求 $\partial{J}/\partial{a}$ ,进一步求 $\partial{J}/\partial{z}$ ,最后求得 $\partial{J}/\partial{W}$ 和 $\partial{J}/\partial{b}$ 。结合上图及链导法则，可以看出这是一个将代价函数的增量 $\partial{J}$ 自后向前传播的过程，因此称为反向传播（back propagation）。