神经网络反向传播推导笔记 (整理版)

原创于 2025-12-23 00:16:42 发布 · 493 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #笔记 #人工智能

这是一份根据你提供的20页手写笔记整理而成的详细文档。

我已将你的笔记内容进行了系统化的重组，保留了你对维度变化、求和逻辑以及微观/宏观视角的精彩分析，并在必要处增加了【勘误/补充】以确保数学严谨性。

神经网络反向传播推导笔记 (整理版)

第一部分：预备知识与符号定义

(基于笔记 Page 5, 2)

1. 核心目标

我们现在的任务是求 $θ\theta$ ，使得代价函数 $J(θ)J(\theta)$ 尽可能小。我们要使用梯度下降 (Gradient Descent) 的方法。

把 $J(θ)J(\theta)$ 看作是关于 $θ1,θ2\theta_1, \theta_2$ 的多元函数。
多元函数沿梯度 (Gradient) 的反方向下降最快。
第一步：求导数，即求梯度。

2. 维度定义 (Shapes)

假设样本量 $m = 5000$ ，分类数 $K = 10$ 。

输入数据 $X$ (即 $a^{(1)}$ ): Shape $(5000, 401)$ (含偏置)。
权重矩阵:
- $θ1\theta_1$ : Shape $(25, 401)$ (25个隐藏单元，401个输入特征)。
- $θ2\theta_2$ : Shape $(10, 26)$ (10个输出单元，26个隐藏特征)。
中间层:
- $a^{(2)}$ : Shape $(5000, 26)$ (含偏置)。
- $z^{(3)}$ : Shape $(5000, 10)$ 。

3. 代价函数

$J(\theta) = -\frac{1}{m} \sum_{i=1}^m \sum_{k=1}^K [ y_k^{(i)} \log(h_\theta(x^{(i)})_k) + (1-y_k^{(i)}) \log(1-h_\theta(x^{(i)})_k) ]$

第二部分：输出层误差 $δ(3)\delta^{(3)}$ 的推导

(基于笔记 Page 1, 3, 6, 7, 8, 9)

1. 定义误差项 $δ\delta$

我们定义一个中间变量 $δ(l)\delta^{(l)}$ （误差项）：
$\delta^{(l)} = \frac{\partial J}{\partial z^{(l)}}$
即：代价函数对第 $l$ 层线性输入的偏导数。

2. 链式法则推导

对于输出层 $z^{(3)}$ ，其激活输出为 $a(3)=g(z(3))=11+e−z(3)a^{(3)} = g(z^{(3)}) = \frac{1}{1+e^{-z^{(3)}}}$ 。

$\delta^{(3)} = \frac{\partial J}{\partial z^{(3)}} = \frac{\partial J}{\partial a^{(3)}} \cdot \frac{\partial a^{(3)}}{\partial z^{(3)}}$

前一项 ( $∂J∂a(3)\frac{\partial J}{\partial a^{(3)}}$ ):
$\frac{\partial J}{\partial a^{(3)}} = -\frac{y}{a^{(3)}} + \frac{1-y}{1-a^{(3)}} = \frac{a^{(3)} - y}{a^{(3)}(1-a^{(3)})}$
后一项 (Sigmoid 求导):
$\frac{\partial a^{(3)}}{\partial z^{(3)}} = a^{(3)}(1 - a^{(3)})$

两者相乘，分母抵消：
$\delta^{(3)} = (a^{(3)} - y)$

3. 维度分析 (由微观到宏观)

不要被公式吓到 (Page 7)：根据导数的加法可裂性，完全可以拆成和式分别求导。
$J$ 是一个单纯的标量（数字），但 $a^{(3)}$ 是一个 $(5000, 10)$ 的矩阵。
$∂J∂a(3)\frac{\partial J}{\partial a^{(3)}}$ 其实理解为对 $a^{(3)}$ 的各个分量（元素）分别求导组成的二维数组。
显然，对于 $J$ 中的某一项求导时，不带 $aik(3)a^{(3)}_{ik}$ 的项导数都是 0。

结论：
将各个元素组合在一起，就有：
$\delta^{(3)} = H - Y$

其 Shape 为 $(5000, 10)$ 。
对应代码：d3t = ht - yt (在 for 循环中是 $(1, 10)$ ，整体是 $(5000, 10)$ )。

第三部分：隐藏层误差 $δ(2)\delta^{(2)}$ 的推导 (难点)

(基于笔记 Page 2, 4, 10, 11, 12, 13, 14, 15, 16)

1. 计算链条的区别 (Page 10)

前向传播 ( $a(2)→z(3)a^{(2)} \to z^{(3)}$ )：是每个元素 1对1 向后传导，然后再加总。
反向传播 ( $δ(3)→δ(2)\delta^{(3)} \to \delta^{(2)}$ )：从 $a^{(2)}$ 到 $z^{(3)}$ 是全连接层，不再是元素到元素的一一对应，因此必须要用求和 (Page 11)。

2. 数学推导

目标：求 $δj(2)=∂J∂zj(2)\delta^{(2)}_j = \frac{\partial J}{\partial z^{(2)}_j}$ 。
针对第 $j$ 个神经元，它影响了下一层（输出层）所有的 $S_3=10$ 个神经元。

根据链式法则：
$\delta^{(2)}_j = \sum_{k=1}^{S_3} \left( \frac{\partial J}{\partial z^{(3)}_k} \cdot \frac{\partial z^{(3)}_k}{\partial z^{(2)}_j} \right)$

拆解中间项 (Page 14-15)：

已知 $∂J∂zk(3)=δk(3)\frac{\partial J}{\partial z^{(3)}_k} = \delta^{(3)}_k$ 。
已知 $zk(3)=∑p=1S2Θkp(2)ap(2)=∑Θkp(2)g(zp(2))z^{(3)}_k = \sum_{p=1}^{S_2} \Theta^{(2)}_{kp} a^{(2)}_p = \sum \Theta^{(2)}_{kp} g(z^{(2)}_p)$ 。
对 $zj(2)z^{(2)}_j$ 求导时，只有当 $p = j$ 时导数不为 0，其他项均为 0。
$\frac{\partial z^{(3)}_k}{\partial z^{(2)}_j} = \Theta^{(2)}_{kj} \cdot g'(z^{(2)}_j)$

代回求和公式 (Page 15)：
$\delta^{(2)}_j = \sum_{k=1}^{S_3} \left( \delta^{(3)}_k \cdot \Theta^{(2)}_{kj} \cdot g'(z^{(2)}_j) \right)$
提取公因式 $g′(zj(2))g'(z^{(2)}_j)$ ：
$\delta^{(2)}_j = \left( \sum_{k=1}^{S_3} \delta^{(3)}_k \cdot \Theta^{(2)}_{kj} \right) \cdot g'(z^{(2)}_j)$

3. 矩阵化 (Linear Algebra Magic)

观察括号内的求和项 $∑δk(3)⋅Θkj(2)\sum \delta^{(3)}_k \cdot \Theta^{(2)}_{kj}$ 。

$δ(3)\delta^{(3)}$ Shape: $(5000, 10)$ 。
$Θ(2)\Theta^{(2)}$ Shape: $(10, 26)$ 。
为了让维度匹配并实现上述求和，我们需要用到 $Θ(2)\Theta^{(2)}$ 的转置。

$\delta^{(2)} = (\delta^{(3)} \cdot (\Theta^{(2)})^T) \odot g'(z^{(2)})$
(注： $⊙\odot$ 表示逐元素相乘)

维度检查 (Page 16):

$δ(3)\delta^{(3)}$ : $(5000, 10)$
$(Θ(2))T(\Theta^{(2)})^T$ : $(10, 26)$ (转置后)
相乘结果: $(5000, 26)$
$g'(z^{(2)})$ : $(5000, 26)$
完美匹配！

第四部分：梯度的计算

(基于笔记 Page 17, 18, 19, 20)

1. 目标

求 $∂J∂Θ(l)\frac{\partial J}{\partial \Theta^{(l)}}$ 。

2. 推导

$\frac{\partial J}{\partial \Theta^{(l)}_{ij}} = \frac{\partial J}{\partial z^{(l+1)}_i} \cdot \frac{\partial z^{(l+1)}_i}{\partial \Theta^{(l)}_{ij}}$

前一项是 $δi(l+1)\delta^{(l+1)}_i$ 。
后一项：因为 $\Theta a$ ，对权重求导剩下的是输入 $aj(l)a^{(l)}_j$ 。

所以：
$\frac{\partial J}{\partial \Theta^{(l)}_{ij}} = \delta^{(l+1)}_i \cdot a^{(l)}_j$

3. 矩阵形式 (Page 19-20)

这是一个外积的形式，对应到整个 Batch (5000个样本)：

$\frac{\partial J}{\partial \Theta^{(l)}} = (\delta^{(l+1)})^T \cdot a^{(l)}$

维度验证 (以 Layer 2 为例)：

我们要得到的梯度矩阵 Shape: $(10, 26)$ 。
$δ(3)\delta^{(3)}$ Shape: $(5000, 10)$ $→\to$ 转置后 $(10, 5000)$ 。
$a^{(2)}$ Shape: $(5000, 26)$ 。
运算: $\times (5000, 26) = (10, 26)$ 。

4. 最终总结公式

Layer 2 Gradient:
$\frac{\partial J}{\partial \Theta^{(2)}} = (\delta^{(3)})^T \cdot a^{(2)} = (H-Y)^T \cdot a^{(2)}$
Layer 1 Gradient:
$\frac{\partial J}{\partial \Theta^{(1)}} = (\delta^{(2)})^T \cdot a^{(1)}$
其中 $δ(2)=(δ(3)⋅(Θ(2))T)⊙g′(z(2))\delta^{(2)} = (\delta^{(3)} \cdot (\Theta^{(2)})^T) \odot g'(z^{(2)})$ 。

【勘误与补充说明】

关于转置符号：
- 在笔记 Page 19 中，写的是 $(δ(3))T@a(2)(\delta^{(3)})^T @ a^{(2)}$ 。这是完全正确的（维度 $\times (5000, 26)$ ）。
- 在代码实现中，有时会看到 d3.T * a2，只要保证这是矩阵乘法即可。
关于 $δ(2)\delta^{(2)}$ 的切片：
- 笔记 Page 10 提到了 insert z0。在实际计算 $δ(2)\delta^{(2)}$ 时，我们通过矩阵乘法 $δ(3)⋅(Θ(2))T\delta^{(3)} \cdot (\Theta^{(2)})^T$ 得到的矩阵是 $(5000, 26)$ ，包含了对 Bias 单元的“误差”。
- 重要：Bias 单元 $a0(2)a^{(2)}_0$ 是常数 1，它不连接到上一层（没有 $Θ\Theta$ 指向它），所以它的误差不需要继续反向传播给 Layer 1。
- 因此，在计算 $∂J∂Θ(1)\frac{\partial J}{\partial \Theta^{(1)}}$ 之前，通常需要把 $δ(2)\delta^{(2)}$ 的第 0 列去掉（即切片操作 delta2[:, 1:]）。
关于求和符号与矩阵乘法：
- 笔记 Page 13 强调“从 $δik\delta_{ik}$ 到 $δj\delta_j$ 的推导只是矩阵元素的组合”。这句话非常深刻。矩阵乘法 $(Θ)T⋅δ(\Theta)^T \cdot \delta$ 本质上就是执行了 Page 4 中的那个求和公式 $∑k\sum_k$ 。