Deep Learning 学习笔记（三）：神经网络反向传播算法推导

最新推荐文章于 2025-07-07 14:33:57 发布

原创最新推荐文章于 2025-07-07 14:33:57 发布 · 4.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #机器学习

机器学习同时被 2 个专栏收录

3 篇文章

订阅专栏

神经网络

1 篇文章

订阅专栏

本文详细介绍了神经网络的基本表示及反向传播算法原理，并给出了批量学习的函数形式，适用于机器学习初学者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0. 前言

茫然中不知道该做什么，更看不到希望。
偶然看到coursera上有Andrew Ng教授的机器学习课程以及他UFLDL上的深度学习课程，于是静下心来，视频一个个的看，作业一个一个的做，程序一个一个的写。N多数学的不懂、Matlab不熟悉，开始的时候学习进度慢如蜗牛，坚持了几个月，终于也学完了。为了避免遗忘，在这里记下一些内容。由于水平有限，Python也不是太熟悉，英语也不够好，有错误或不当的地方，请不吝赐教。

神经网络有非常丰富的资料，在这里只是记录自己学习的过程、内容和心得。

1. 神经网络的表示

首先用一张图来表示多层神经网络的结构，如图1。
多层神经网络结构
图1 神经网络结构图

1.1 符号说明

输入向量 $x=[x_1,x_2,\ldots,x_{n_0}]^T$ 是一个列向量。
标签（label） $y$ 未在图中表示，它和 $x$ 有相同维度。
$n_l$ 为第L层的神经节点个数。
$W^{(l)}\in\Re^{n_l \times n_{l-1}}$ 为第L层的权重矩阵。截距 $b^{(l)}\in\Re^{n_l\times 1}$ 未在图上表示。
Z(l) 表示第L层的活动水平向量，
- $Z_{i}^{(l+1)}=\Sigma_{j=1}^{n_l}(W_{ij}^{(l+1)}\times a_j^{(l)}+b_i^{(l+1)})$ ， $a^{(0)}$ 即为输入向量 $x$
- $Z^{(l+1)}=W^{(l+1)}\times a^{(l)}+b^{(l+1)}$ ,矢量化表示。
$f(\bullet)$ 为激活函数，可以是sigmoid、tanh等。
$a^{(l)}=f(Z^{(l)})$ 为第L层的激活向量，即输出向量。
若 $l$ 层为输出层，定义假设函数 $h_{W,b}(x)=a^{(l)}$

1.2 反向传播算法

神经网络的反向传播算法是建立在最速梯度下降基础上的，希望误差的能量函数最小。对于输入向量 $x$ 和标签 $y$ ，定义平方误差能量函数如下：

J (W, b; x, y) = 1 2 ∥ ∥ h W, b (x) - y ∥ ∥ 2 = 1 2 \sum i = 1 n l (a (l) i - y i) 2

$J(W,b;x,y)={1\over 2}\left\| h_{W,b}(x) - y \right\|^2={1\over 2}\sum_{i=1}^{n_l}(a_i^{(l)}-y_i)^2$
我们要找到一个合适的W和b，使

J(W,b;x,y) $J(W,b;x,y)$ 最小，即

m i n i m i z e W, b J (W, b; x, y) (1)

$minimize_{W,b}J(W,b;x,y) \qquad (1)$
使用梯度下降法:

W = W - α \nabla W (2)

$W=W-\alpha \nabla W \qquad (2)$

b = b - α \nabla b (3)

$b=b-\alpha \nabla b \qquad (3)$

α $\alpha$ 为学习率。
下面通过推导求

∇W,∇b $\nabla W,\nabla b$ 。

\partial J \partial W ( l ) i j = \partial J \partial Z ( l ) i \partial Z ( l ) i \partial W ( l ) i j = \partial J \partial a ( l ) i \partial a ( l ) i \partial Z ( l ) i a (l - 1) j = \partial J \partial a ( l ) i f' (Z (l) i) a (l - 1) j (4)

${\partial J\over \partial W_{ij}^{(l)}}={\partial J \over \partial Z_i^{(l)}}{\partial Z_i^{(l)} \over \partial W_{ij}^{(l)}}={\partial J \over \partial a_i^{(l)}}{\partial a_i^{(l)} \over \partial Z_i^{(l)}}a_j^{(l-1)}={\partial J \over \partial a_i^{(l)}}f^{'}(Z_i^{(l)})a_j^{(l-1)}\qquad (4)$

\partial J \partial b ( l ) i = \partial J \partial Z ( l ) i \partial Z ( l ) i \partial b ( l ) i = \partial J \partial a ( l ) i \partial a ( l ) i \partial Z ( l ) i = \partial J \partial a ( l ) i f' (Z (l) i) (5)

${\partial J\over \partial b_{i}^{(l)}}={\partial J \over \partial Z_i^{(l)}}{\partial Z_i^{(l)} \over \partial b_{i}^{(l)}}={\partial J \over \partial a_i^{(l)}}{\partial a_i^{(l)} \over \partial Z_i^{(l)}}={\partial J \over \partial a_i^{(l)}}f^{'}(Z_i^{(l)})\qquad (5)$
令误差项(大部分教材中，都把误差项分配到

l+1 $l+1$ 层，但从个人编程的角度理解，把它归入到

l $l$ 层更方便)

δ (l) i = \partial J \partial a ( l ) i f' (Z (l) i) (6)

$\delta_i^{(l)}={\partial J \over \partial a_i^{(l)}}f^{'}(Z_i^{(l)})\qquad (6)$ ，代入(4)(5)式，有：

\partial J \partial W ( l ) i j = δ (l) i a (l - 1) j (7)

${\partial J\over \partial W_{ij}^{(l)}}=\delta_i^{(l)}a_j^{(l-1)}\qquad (7)$

\partial J \partial b ( l ) i = δ (l) i (8)

${\partial J\over \partial b_i^{(l)}}=\delta_i^{(l)}\qquad (8)$
或矢量化形式：

\nabla W (l) = \partial J \partial W ( l ) = δ (l) (a (l - 1)) T (9)

$\nabla W^{(l)}={\partial J \over \partial W^{(l)}}=\delta^{(l)}(a^{(l-1)})^T\qquad (9)$

\nabla b (l) = \partial J \partial b ( l ) = δ (l) (10)

$\nabla b^{(l)}={\partial J\over \partial b{(l)}}=\delta{(l)}\qquad (10)$
其中：

δ (l) = [δ (l) 1, \dots, δ (l) n l] T, a (l - 1) \in R n l - 1 \times 1, \nabla W (l) \in R n l \times n l - 1, \nabla b (l) \in R n l \times 1

$\delta^{(l)}=[\delta_1^{(l)},\ldots,\delta_{n_l}^{(l)}]^T, a^{(l-1)}\in\Re^{n_{l-1}\times 1},\nabla W^{(l)}\in \Re^{n_l\times n_{l-1}},\nabla b^{(l)}\in \Re^{n_l\times 1}$
若

l $l$ 层为输出层，则:

\partial J \partial a ( l ) i = \partial ( \sum n l k = 1 1 2 （ a ( l ) k - y k ） 2 ） \partial a ( l ) i = a (l) i - y i (11)

${\partial J \over \partial a_i^{(l)}}={\partial (\sum_{k=1}^{n_l}{\frac 12}（a_k^{(l)}-y_k）^2）\over \partial a_i^{(l)}}=a_i^{(l)}-y_i\qquad(11)$
则:

δ (l) i = \partial J \partial a ( l ) i f' (Z (l) i) = (a (l) i - y i) f' (Z (l) i) (12)

$\delta_i^{(l)}={\partial J \over \partial a_i^{(l)}}f^{'}(Z_i^{(l)})=(a_i^{(l)}-y_i)f^{'}(Z_i^{(l)})\qquad (12)$
或

δ (l) = (a (l) - y) ∙ f' (Z (l)) (13)

$\delta^{(l)}=(a^{(l)}-y)\bullet f^{'}(Z^{(l)})\qquad (13)$
(12)式中的“

∙ $\bullet$ ”是向量和矩阵中元素相乘运算符。
若

l $l$ 层是隐藏层，我们还需要对

∂J∂a(l)i ${\partial J \over \partial a_i^{(l)}}$ 做进一步的处理。函数J是向量

Z(l+1) $Z^{(l+1)}$ 的函数，而它的每个元素又是

a(l)i $a_i^{(l)}$ 的函数。根据复合函数求导公式，对J求

a(l)i $a_i^{(l)}$ 的偏导数有：

\partial J \partial a ( l ) i = \sum j = 1 n l + 1 \partial J \partial Z ( l + 1 ) j \partial Z ( l + 1 ) j \partial a ( l ) i = \sum j = 1 n l + 1 \partial J \partial a ( l + 1 ) j \partial a ( l + 1 ) j \partial Z ( l + 1 ) j \partial Z ( l + 1 ) j \partial a ( l ) i

${\partial J \over \partial {a_i^{(l)}}}=\sum_{j=1}^{n_{l+1}}{\partial J \over \partial Z_j^{(l+1)}}{\partial Z_j^{(l+1)}\over \partial a_i^{(l)}}=\sum_{j=1}^{n_{l+1}}{\partial J \over \partial a_j^{(l+1)}}{\partial a_j^{(l+1)}\over \partial Z_j^{(l+1)}}{\partial Z_j^{(l+1)}\over \partial a_i^{(l)}}$

= \sum j = 1 n l + 1 \partial J \partial a ( l + 1 ) j f' (Z (l + 1) j) W (l + 1) j i = \sum j n l + 1 δ (l + 1) j W (l + 1) j i = (W (l + 1) (, i)) T δ (l + 1) (14)

$=\sum_{j=1}^{n_{l+1}}{\partial J \over \partial a_j^{(l+1)}}f^{'}(Z_j^{(l+1)})W_{ji}^{(l+1)}=\sum_j^{n_{l+1}}\delta_j^{(l+1)}W_{ji}^{(l+1)}=(W_{(,i)}^{(l+1)})^T\delta^{(l+1)}\qquad (14)$
代入(6)式，有

δ (l) i = (W (l + 1) (, i)) T δ (l + 1) f' (Z (l) i) (15)

$\delta_i^{(l)}=(W_{(,i)}^{(l+1)})^T\delta^{(l+1)}f^{'}(Z_i^{(l)})\qquad (15)$
矢量化后有

δ (l) = ((W (l + 1)) T δ (l + 1)) ∙ f' (Z (l)) (16)

$\delta^{(l)}=\left((W^{(l+1)})^T\delta^{(l+1)}\right)\bullet f^{'}(Z^{(l)})\qquad (16)$
至此推导完成。

1.3 批量学习的函数形式

在上一节中 $x$ 是一个向量，如果有m个向量，定义输入矩阵X和标签y：

X = [x (1), \dots, x (i), \dots, x (m)] ， y = [y (1), \dots, y (i), \dots, y (m)] T

$X=[x^{(1)},\ldots,x^{(i)},\ldots, x^{(m)}]，y=[y^{(1)},\ldots,y^{(i)},\ldots,y^{(m)}]^T$
其中

x(i) $x^{(i)}$ 为具有n个特征的列向量，

y(i) $y^{(i)}$ 为表示类别的标量。
代价函数：

J (W, b) = 1 m \sum i = 1 m J (W, b; x (i), y (i)) = 1 m \sum i = 1 m 1 2 ∥ ∥ h W, b (x (i)) - y (i) ∥ ∥ 2

$J(W,b)=\frac 1m \sum_{i=1}^m J(W,b;x^{(i)},y^{(i)})=\frac 1m \sum_{i=1}^m \frac 12 \left\| h_{W,b}(x^{(i)}) - y^{(i)} \right\|^2$

a (0) = X, Z (l) = W (l) \times X, a (l) = f (Z (l)), l = 1 \dots n l

$a^{(0)}=X,Z^{(l)}=W^{(l)}\times X,a^{(l)}=f(Z^{(l)}),l=1\ldots n_l$
对于梯度

\nabla W (l) = 1 m δ (l) (a (l - 1)) T

$\nabla W^{(l)}=\frac 1m \delta^{(l)}(a^{(l-1)})^T$

\nabla b (l) = 1 m \sum i = 1 m δ (i)

$\nabla b^{(l)}=\frac 1m \sum_{i=1}^{m} \delta^{(i)}$
和误差项

δ (l) = (W (l)) T \times δ (l + 1) ∙ f' (Z (l))

$\delta^{(l)}=\left ( W^{(l)}\right)^T\times \delta^{(l+1)}\bullet f^{'}(Z^{(l)})$

1.4 规范化

为了防止过拟合（overfiting），需要对误差函数和W梯度添加L2范式惩罚项。假定网络有L层，

J (W, b) = 1 m \sum i = 1 m 1 2 ∥ ∥ h W, b (x (i)) - y (i) ∥ ∥ 2 + λ 2 \sum l = 1 L \sum i = 1 n l \sum j = 1 n l - 1 (W (l) i j) 2

$J(W,b)=\frac 1m \sum_{i=1}^m \frac 12 \left\| h_{W,b}(x^{(i)}) - y^{(i)} \right\|^2 +\frac \lambda 2 \sum_{l=1}^L\sum_{i=1}^{n_l}\sum_{j=1}^{n_{l-1}}\left (W_{ij}^{(l)}\right)^2$