【机器学习算法篇】卷积神经网络中反向传播算法深入理解_卷积神经网络反向传播计算da-优快云博客

本文详细介绍了BP算法的工作原理，包括前向传播与反向传播过程，展示了如何通过调整权重使神经网络学习从输入到输出的映射，以最小化误差。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

CNN的参数调优是通过BP算法实现的，BP算法详解如下。

概览

使用有2个输入单元的神经网络，2个隐层神经元以及2个输出神经元。此外，隐层和输出神经元会包含一个偏置，下面是基本的网络结构：

为了便于后面说明的说明，我们对该网络设置一些初始的权重、偏置以及输入和输出：

反向传播的目标是对权重进行优化，使得神经网络能够学习到从任意的输入到输出的准确映射。

在这篇博文中，我们仅使用一个简单的训练集，即输入为0.05和0.10，我们希望网络的输出为0.01和0.99(即输入的样本是两个: (0.05, 0.99), (0.10, 0.99))。

前向传播

首先来看看对于给定的初始化权重和偏置，网络对于输入0.05和0.10的输出是啥。我们将输入输进网络中。

我们先计算从全部网络的输入到隐层的每一个神经元，激活函数采用logistic函数，对于从隐层到输出层，我们重复这一过程。

全部的网络输入也被称为网络的输入Derivation of Backpropagation

下面是对于h1全部网络输入的输入计算过程：

n e t h 1 = w 1 * i 1 + w 2 * i 2 + b 1 * 1 n e t h 1 = 0.15 * 0.05 + 0.2 * 0.1 + 0.35 * 1 = 0.3775

(译者注：类比到CNN网络里，这个过程就是卷积过程，得到特征响应图)

然后我们将其输入到激活函数中，得到输出h1:

o u t h 1 = 1 1 + e - n e t h 1 = 1 1 + e - 0.3775 = 0.593269992

(译者注：类比到CNN网络里，这个过程特征响应图经过激活函数运算的过程)

对于h2通过上面相同的过程，我们可以得到：

o u t h 2 = 0.596884378

对于输入层神经元，将隐层的输出作为输入(译者注：在CNN中，还需要经过池化后才能作为下一层的输入，至于为啥需要池化，这里译者不就解释了)，重复上面相同的过程，我们可以得到：

n e t o 1 = w 5 * o u t h 1 + w 6 * o u t h 2 + b 2 * 1 n e t o 1 = 0.4 * 0.593269992 + 0.45 * 0.596884378 + 0.6 * 1 = 1.105905967 o u t o 1 = 1 1 + e - n e t o 1 = 1 1 + e - 1.105905967 = 0.75136507

同样的，重复上面相同的过程，可以得到O2:

o u t O 2 = 0.772928465

计算总误差

现在对于输出的每一个神经元，使用平方误差函数求和来计算总的误差：

E t o t a l = \sum 1 2 (t a r g e t - o u t p u t) 2

output就是我们的预测label，而target就是groundtruth。12使得我们在求骗到的时候可以消去2，不影响模型参数的结果求解。

对于第一个神经元的输出O1真实值是0.01，而网络的输出是0.75136507，因而第一个神经元的输出误差为：

E O 1 = 1 2 (t a r g e t - o u t p u t) 2 = 1 2 (0.01 - 0.75136507) 2 = 0.274811083

重复上面过程，可以得到第二个神经元的输出O2为：

E O 2 = 0.023560026

所以整个神经网络的误差求和为：

E t o t a l = E O 1 + E O 2 = 0.274811083 + 0.023560026 = 0.298371109

反向传播

反向传播的目标是：通过更新网络中的每一个权重，使得最终的输出接近于groundtruth，这样就得到整个网络的误差作为一个整体进行了最小化。

输出层

先来考察w5，我们想知道对于w5的改变可以多大程度上影响总的误差，也就是∂Etotal∂w5。

通过使用链式法则，可以得到：

\partial E t o t a l \partial w 5 = \partial E t o t a l \partial o u t o 1 * \partial o u t O 1 \partial n e t O 1 * \partial n e t O 1 \partial w 5

为了更直观的表述上面链式法则的过程，对其进行可视化：

我们对上面使用链式法则得到的每一项分别进行计算。首先，整体误差关于各个神经元的输出改变了？

E t o t a l = \sum 1 2 (t a r g e t - o u t p u t) 2 = 1 2 (t a r g e t O 1 - o u t p u t O 1) 2 + 1 2 (t a r g e t O 2 - o u t p u t O 2) 2 \partial E t o t a l \partial o u t O 1 = 2 * 1 2 (t a r g e t O 1 - o u t p u t O 1) 2 - 1 * - 1 + 0 = - (t a r g e t O 1 - o u t p u t O 1) = - (0.01 - 0.75136507) = 0.74136507

logistic函数的偏导数为输出乘以1减去输出，即：

o u t O 1 = 1 1 + e - n e t O 1 \partial o u t O 1 \partial n e t O 1 = o u t O 1 (1 - o u t O 1) = 0.75136507 (1 - 0.75136507) = 0.186815602

最后，整个网络的输入O1关于w5改变了多少呢？

n e t O 1 = w 5 * o u t h 1 + w 6 * o u t h 2 + b 2 * 1 \partial E t o t a l \partial w 5 = \partial E t o t a l \partial o u t o 1 * \partial o u t O 1 \partial n e t O 1 * \partial n e t O 1 \partial w 5 \partial E t o t a l \partial w 5 = 0.74136507 * 0.186815602 * 0.593269992 = 0.082167041

你也会看到用delta规则表示的形式：
$\partial E t o t a l \partial w 5 = - (t a r g e t O 1 - o u t O 1) * o u t O 1 (1 - o u t o 1) * o u t h 1$
我们可以将∂Etotal∂outO1和∂outO1∂netO1写为∂Etotal∂netO1，并用δO1表示它，从而可以将上面的式子表示为：
$δ O 1 = \partial E t o t a l \partial o u t o 1 * \partial o u t O 1 \partial n e t O 1 δ O 1 = - (t a r g e t O 1 - o u t O 1) * o u t O 1 (1 - o u t o 1)$
因此有：
$\partial E t o t a l \partial w 5 = δ O 1 o u t h 1$
有一些论文中通过将负号从δ中提出来将其也可以写为下面这种形式：
$\partial E t o t a l \partial w 5 = - δ O 1 o u t h 1$

为了减小误差，我们将w5原来的值减去目前的权重(通常会乘上一个学习率η，这里我们将其设置为0.5)：

w + 5 = w 5 - η * \partial E t o t a l \partial w 5

学习率在不同的文章中可以记法不一样，有用α的，有用η的，有用ϵ的。

重复上面的过程，我们可以得到更新后的w6、w7和w8：

w + 6 = 0.408666186 w + 7 = 0.511301270 w + 8 = 0.561370121

注意，在我们继续向前推进反向传播的时候，在要使用到w5、w6、w7和w8的地方，我们仍然使用的是原来的权重，而不是更新后的权重。

隐层

我们继续推进反向传播来计算w1、w2、w3和w4更新的权重：

同样使用链式法则，我们可以得到：

\partial E t o t a l \partial w 1 = \partial E t o t a l \partial o u t h 1 * \partial o u t h 1 \partial n e t h 1 * \partial n e t h 1 \partial w 1

可视化上面的链式法则：

对于这一层(隐层)的更新我们采用上面输出层相似的处理方式，不过会稍有不同，这种不同主要是因为每一个隐层神经元的输出对于最终的输出都是有贡献的。我们知道outh1既影响outO1也影响outO2，因此∂Etotal∂outh1需要同时考虑到这两个输出神经元影响：

\partial E t o t a l \partial o u t h 1 = \partial E O 1 \partial o u t h 1 + \partial E O 2 \partial o u t h 1

又由于：

\partial E O 1 \partial o u t h 1 = \partial E O 1 \partial n e t O 1 * \partial n e t O 1 \partial o u t h 1

我们可以用前面计算的值来计算∂EO1∂netO1:

\partial E O 1 \partial n e t O 1 = \partial E O 1 \partial o u t O 1 * \partial o u t O 1 \partial n e t O 1 = 0.74136507 * 0.186815602 = 0.138498562

又因为∂netO1∂outh1等于w5:

n e t O 1 = w 5 * o u t h 1 + w 6 * o u t h 2 + b 2 * 1 \partial n e t O 1 \partial o u t h 1 = w 5 = 0.40

将上面每步分开算的结果合起来得：

\partial E O 1 \partial o u t h 1 = \partial E O 1 \partial n e t O 1 * \partial n e t O 1 \partial o u t h 1 = 0.138498562 * 0.40 = 0.055399425

与上面的步骤一样，我们可以得到：

\partial E O 2 \partial o u t h 1 = w 5 = - 0.019049119

因此：

\partial E t o t a l \partial o u t h 1 = \partial E O 1 \partial o u t h 1 + \partial E O 2 \partial o u t h 1 = 0.055399425 + (- 0.019049119) = 0.036350306

现在我们已经有了∂Etotal∂outh1，我们还需要为每一个需要更新的权重计算∂outh1∂neth1和∂neth1∂w：

o u t h 1 = 1 1 + e ( n e t h 1 ) \partial o u t h 1 \partial n e t h 1 = o u t h 1 (1 - o u t h 1) = 0.59326999 (1 - 0.59326999) = 0.241300709

如我们前面对于输出神经元所做的一样，我们计算h1的全部输入关于w1求偏导：

n e t h 1 = w 1 * i 1 + w 2 * i 2 + b 1 * 1 \partial n e t h 1 \partial w 1 = i 1 = 0.05

将上面计算的各个部分合起来：

\partial E t o t a l \partial w 1 = \partial E t o t a l \partial o u t h 1 * \partial o u t h 1 \partial n e t h 1 * \partial n e t h 1 \partial w 1 \partial E t o t a l \partial w 1 = 0.036350306 * 0.241300709 * 0.05 = 0.000438568

你可以可能会看到下面的这种写法：
$\partial E t o t a l \partial w 1 = (\sum O \partial E t o t a l \partial o u t O * \partial o u t O \partial n e t O * \partial n e t O \partial o u t h 1) * \partial o u t h 1 \partial n e t h 1 * \partial n e t h 1 \partial w 1 \partial E t o t a l \partial w 1 = (\sum O δ O * w h O) * o u t h 1 (1 - o u t h 1) * i \partial E t o t a l \partial w 1 = δ h 1 i 1$

现在我们可以更新w1:

w + 1 = w 1 - η * \partial E t o t a l \partial w 1 = 0.15 - 0.5 * 0.000438568 = 0.149780716

根据上面相同的计算过程，我们可以得到w2、w3和w4：

w + 2 = 0.19956143 w + 3 = 0.24975114 w + 4 = 0.29950229

现在，我们已经更新了所有的权重，在最初，在我们的输入为0.05和0.1的时候，网络的误差为0.298371109，经过第一次方向传播后，网络的误差降低到了0.291027924。虽然看起来下降得不是很多，但是在重复这个过程10000次以后，网络的误差就下降到了0.000035085。这个时候，当我们把0.05和0.1再输入进去，两个神经元的输出为0.015912196(vs 0.01)和0.984065734(vs 0.99)。

参考：

http://yongyuan.name/blog/back-propagtion.html

https://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/