CNN详解——反向传播过程

最新推荐文章于 2025-07-12 19:38:17 发布

原创

最新推荐文章于 2025-07-12 19:38:17 发布 · 6.8k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#CNN #卷积 #反向传播

CNN的反向传播过程，从原理上讲，与普通的反向传播相同（都使用了链式法则），从具体形式上讲，CNN的反向传播公式又比较特殊，这是因为CNN独有的4个特点：

局部感知：卷积核和图像卷积时，每次卷积核所覆盖的像素只是一小部分。这一小部分也叫做感受野。
权值共享：同一层的每个感受野被卷积时，卷积参数都是相同的。
多卷积核：同一层的每个感受野可能被多个不同的卷积核分别进行卷积，输出多个通道（每个卷积核的结果是一个通道）。
池化：下采样过程，图像经过池化后，大小会缩小一定倍数。

一般的反向传播

一般的反向传播（即全连接网络）的公式如下：

δ (l) i \partial J ( θ ) \partial w ( l ) i j \partial J ( θ ) \partial b ( l ) i = g' (z (l) i) \sum j = 1 S l + 1 δ (l + 1) j w (l) j i = δ (l + 1) i a (l) j = δ (l + 1) i

$\begin{align*} \delta_i^{(l)}&=g'(z_i^{(l)})\sum_{j=1}^{S_{l+1}}\delta_j^{(l+1)}w_{ji}^{(l)} \\ \frac{\partial J(\theta)}{\partial w_{ij}^{(l)}}&=\delta _i^{(l+1)}a_j^{(l)}\\ \frac{\partial J(\theta)}{\partial b_i^{(l)}}&=\delta _i^{(l+1)} \end{align*}$
向量形式的表达如下：

δ (l) \partial J ( θ ) \partial W ( l ) \partial J ( θ ) \partial b ( l ) = (W (l)) T δ (l + 1) \circ g' (z (l)) = δ (l + 1) (a (l)) T = δ (l + 1)

$\begin{align*} \boldsymbol{\delta}^{(l)}&=(\boldsymbol{W}^{(l)})^T\boldsymbol{\delta}^{(l+1)}\circ g'(\boldsymbol{z}^{(l)})\\ \frac{\partial J(\theta)}{\partial \boldsymbol{W}^{(l)}}&=\boldsymbol{\delta}^{(l+1)}(\boldsymbol{a}^{(l)})^T\\ \frac{\partial J(\theta)}{\partial \boldsymbol{b}^{(l)}}&=\boldsymbol{\delta}^{(l+1)} \end{align*}$
详细推导过程见反向传播算法的公式推导

反向传播公式的分析

1、对于敏感度的传播： $\delta_i^{(l)}=g'(z_i^{(l)})\sum_{j=1}^{S_{l+1}}\delta_j^{(l+1)}w_{ji}^{(l)}$ ，可以直接根据链式法则去解释它：
（1）根据前向传播规则， $\delta_i^{(l)}$ 的改变，先影响了此节点的输出值，然后影响了下一层所有的 $\delta_j^{(l+1)}$ 。
（2）根据链式法则，此节点由输入到输出，其梯度需要乘以 g