图文+代码分析：caffe中全连接层、Pooling层、Relu层的反向传播原理和实现

本文链接：https://blog.youkuaiyun.com/lr87v5/article/details/80082344

本文详细解析了神经网络中的全连接层、池化层及ReLU激活函数的反向传播过程，包括各层的梯度计算及更新策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.全连接层反向传播

设 $C$ 为loss
全连接层输入：(bottom_data) $a$
全连接层输出：(top_data) $z$
假设 $a$ 维度K_， $z$ 维度N_，则权值矩阵维度为N_行*K_列，batchsize=M_
全连接层每个输出 ${z_i} = b + \sum\limits_j {{w_{ij}}{a_j}}$

1.1bottom_diff计算：

对bottom_data求导： $\frac{{\partial C}}{{\partial {a_j}}} = \sum\limits_i {\frac{{\partial C}}{{\partial {z_i}}} \cdot \frac{{\partial {z_i}}}{{{a_j}}}} = \sum\limits_i {{z_i}^\prime } {w_{ij}}$ （batchsize=1时）
当batchsize不为1时，需要分别获得各个样本下的结果，组成矩阵：
bottom_diff计算矩阵实现示意图
caffe实现：

1.2weight_diff计算：

对weight求导： $\frac{{\partial C}}{{\partial {w_{ij}}}} = \frac{{\partial C}}{{\partial {z_i}}} \cdot \frac{{\partial {z_i}}}{{{w_{ij}}}} = {z_i}^\prime {a_j}$
当batchsize不为1时，需要将各个样本下的结果进行求和：
weight_diff计算矩阵实现示意图
caffe实现：

1.3bias_diff计算：

对bias进行求导： $\frac{{\partial C}}{{\partial b}} = \sum\limits_i {\frac{{\partial C}}{{\partial {z_i}}} \cdot \frac{{\partial {z_i}}}{b}} = \sum\limits_i {{z_i}^\prime }$ （batchsize=1时）
当batchsize不为1时，需要分别获得各个样本下的结果，组成向量：
bias_diff计算矩阵实现示意图
caffe实现：

2.Pooling层反向传播

2.1 Max Pooling:

MaxPooling前向传播示意图
首先，在前向传播时，在输出新的feature map的同时，还要记录每个输出点对应于前一层feature map中的位置，放入mask或者top_mask中（top_mask是指，该mask存放在top_data里当作输出的一部分）
max pooling 前向传播caffe实现：

在反向传播时：将top_diff按照记录下来的index返回到输入层中，即只对前向传播时选中的一些位置进行误差传播，如下图：
MaxPooling反向传播示意图
max pooling 反向传播caffe实现：

2.2 Average Pooling

前向传播较简单，block内数值的平均值作为输出，每个输出值对应固定的输入block，如图：
AveragePooling前向传播示意图
反向传播，将输出层各个位置的梯度，平均分配到其对应的输入block中，如图：
AveragePooling反向传播示意图
average pooling 反向传播caffe实现：

3.Relu层反向传播

由Relu定义可得其导数：

f (x) = {x α x x > 0 x ⩽ 0, f' (x) = {1 α x > 0 x ⩽ 0

$f(x) = \left\{ {\begin{array}{*{20}{c}} x&{x > 0} \\ {\alpha x}&{x \leqslant 0} \end{array}} \right.,f'(x) = \left\{ {\begin{array}{*{20}{c}} 1&{x > 0} \\ \alpha &{x \leqslant 0} \end{array}} \right.$
其中

αα $\alpha$ 默认为0
则Relu反向传播只需判断原始输入数据是否大于0，若大于0则将top_diff直接传到前层，否则将top_diff乘上

αα $\alpha$ 传到前层，如图：
Relu层前向和反向传播示意图