神经网络反向传播算法推导

最新推荐文章于 2024-11-23 21:11:26 发布

peastarrt

最新推荐文章于 2024-11-23 21:11:26 发布

阅读量301

点赞数

CC 4.0 BY-SA版权

文章标签：神经网络深度学习线性代数

本文链接：https://blog.youkuaiyun.com/Zijie123pea/article/details/112525526

本文聚焦神经网络反向传播，介绍了神经网络结构，推导损失函数J(w)对w和b的梯度，指出求权重矩阵w梯度需用到后面矩阵的梯度∂hL∂J。还探讨了通过非线性变换fL求∂hL∂J，分析了Sigmoid、tanh、ReLU三种常见函数下的计算方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

神经网络结构：
在这里插入图片描述
$OUT=ZLwL+1+b~L+1OUT=Z_Lw_{L+1}+\tilde b_{L+1}$

设：
$ZL=[z11z12z13z21z22z23]Z_L=\left[\begin{matrix}z_{11}&z_{12}&z_{13}\\z_{21}&z_{22}&z_{23}\end{matrix}\right]$ , $WL+1=[w11w12w21w22w31w32]W_{L+1}=\left[\begin{matrix}w_{11}&w_{12}\\w_{21}&w_{22}\\w_{31}&w_{32}\end{matrix}\right]$ ,
$bL+1=[b1b2]b_{L+1}=\left[\begin{matrix}b_1\\b_2\end{matrix}\right]$

$b~L+1=[b11b12b21b22]\tilde b_{L+1}=\left[\begin{matrix}b_{11}&b_{12}\\b_{21}&b_{22}\end{matrix}\right]$ , $OUT=[o11o12o21o22]OUT=\left[\begin{matrix}o_{11}&o_{12}\\o_{21}&o_{22}\end{matrix}\right]$

则：
$ZLwL+1=[z11z12z13z21z22z23][w11w12w21w22w31w32]=[z11w11+z12w21+z13w31z11w12+z12w22+z13w32z21w11+z22w21+z23w31z21w12+z22w22+z23w32]Z_Lw_{L+1}=\left[\begin{matrix}z_{11}&z_{12}&z_{13}\\z_{21}&z_{22}&z_{23}\end{matrix}\right]\left[\begin{matrix}w_{11}&w_{12}\\w_{21}&w_{22}\\w_{31}&w_{32}\end{matrix}\right]=\left[\begin{matrix}z_{11}w_{11}+z_{12}w_{21}+z_{13}w_{31}&z_{11}w_{12}+z_{12}w_{22}+z_{13}w_{32}\\z_{21}w_{11}+z_{22}w_{21}+z_{23}w_{31}&z_{21}w_{12}+z_{22}w_{22}+z_{23}w_{32}\end{matrix}\right]$
$OUT=[o11o12o21o22]OUT=\left[\begin{matrix}o_{11}&o_{12}\\o_{21}&o_{22}\end{matrix}\right]$

$o_{11}=z_{11}w_{11}+z_{12}w_{21}+z_{13}w_{31}+b_1$
$o_{12}=z_{11}w_{12}+z_{12}w_{22}+z_{13}w_{32}+b_2$
$o_{21}=z_{21}w_{11}+z_{22}w_{21}+z_{23}w_{31}+b_1$
$o_{22}=z_{21}w_{12}+z_{22}w_{22}+z_{23}w_{32}+b_2$

反向传播的目的是优化各个 $w$ 矩阵， $f$ 不需要优化，因为里面没有参数。所以损失函数表示为 $J (w)$ 。

下面算损失函数 $J (w)$ 对 $w$ 的梯度：
损失函数 $J$ 为预测值OUT减去实际标签值后，求MSE或CE，所以 $J$ 为列向量的范数或CE，与 $o$ 和 $w$ 有关系，所以用链式求导：
可以设 $∣∣ZLwL+1+b~L+1−Y∣∣2=J||Z_Lw_{L+1}+\tilde b_{L+1}-Y||^2=J$ （此处范数为Frobenius范数，即矩阵元素绝对值的平方和再开平方；当然也可以选用CE或其他形式）， $a$ 中包含 $w$ ，则 $J (w)$ 对 $w$ 求梯度，即对 $w$ 矩阵中每一个元素求梯度：

$∂J∂w11=∂J∂o11z11+∂J∂o21z21\frac{\partial J}{\partial w_{11}}=\frac{\partial J}{\partial o_{11}}z_{11}+\frac{\partial J}{\partial o_{21}}z_{21}$ ， $∂J∂w12=∂J∂o12z11+∂J∂o22z21\frac{\partial J}{\partial w_{12}}=\frac{\partial J}{\partial o_{12}}z_{11}+\frac{\partial J}{\partial o_{22}}z_{21}$

$∂J∂w21=∂J∂o11z12+∂J∂o21z22\frac{\partial J}{\partial w_{21}}=\frac{\partial J}{\partial o_{11}}z_{12}+\frac{\partial J}{\partial o_{21}}z_{22}$ ， $∂J∂w22=∂J∂o12z12+∂J∂o22z22\frac{\partial J}{\partial w_{22}}=\frac{\partial J}{\partial o_{12}}z_{12}+\frac{\partial J}{\partial o_{22}}z_{22}$

$∂J∂w31=∂J∂o11z13+∂J∂o21z23\frac{\partial J}{\partial w_{31}}=\frac{\partial J}{\partial o_{11}}z_{13}+\frac{\partial J}{\partial o_{21}}z_{23}$ ， $∂J∂w32=∂J∂o12z13+∂J∂o22z23\frac{\partial J}{\partial w_{32}}=\frac{\partial J}{\partial o_{12}}z_{13}+\frac{\partial J}{\partial o_{22}}z_{23}$

注意：此处因为 $WL+1=[w11w12w21w22w31w32]3×2W_{L+1}=\left[\begin{matrix}w_{11}&w_{12}\\w_{21}&w_{22}\\w_{31}&w_{32}\end{matrix}\right]_{3\times 2}$ ，有两套参数，所以求损失函数时用Frobenius范数，即矩阵元素绝对值的平方和再开平方。

所以：
$∂J∂WL+1=[∂J∂w11∂J∂w12∂J∂w21∂J∂w22∂J∂w31∂J∂w32]=[z11z21z12z22z13z23][∂J∂o11∂J∂o12∂J∂o21∂J∂o22]=ZLT∂J∂OUT\frac{\partial J}{\partial W_{L+1}}=\left[\begin{matrix}\frac{\partial J}{\partial w_{11}}&\frac{\partial J}{\partial w_{12}}\\\frac{\partial J}{\partial w_{21}}&\frac{\partial J}{\partial w_{22}}\\\frac{\partial J}{\partial w_{31}}&\frac{\partial J}{\partial w_{32}}\end{matrix}\right]=\left[\begin{matrix}z_{11}&z_{21}\\z_{12}&z_{22}\\z_{13}&z_{23}\end{matrix}\right]\left[\begin{matrix}\frac{\partial J}{\partial o_{11}}&\frac{\partial J}{\partial o_{12}}\\\frac{\partial J}{\partial o_{21}}&\frac{\partial J}{\partial o_{22}}\\\end{matrix}\right]=Z_L^T\frac {\partial J}{\partial OUT}$

可见在线性变换的最后一层求导已经用到OUT的偏导数了。

损失函数 $J (w)$ 对 $b$ 的梯度：

$bL+1=[b1b2]b_{L+1}=\left[\begin{matrix}b_1\\b_2\end{matrix}\right]$ ，拓展为： $b~L+1=[b11b12b21b22]\tilde b_{L+1}=\left[\begin{matrix}b_{11}&b_{12}\\b_{21}&b_{22}\end{matrix}\right]$

其实 $b_{11}=b_{12}=b_1$ , $b_{12}=b_{22}=b_2$

$∂J∂b1=∂J∂o11+∂J∂o21\frac{\partial J}{\partial b_1}=\frac{\partial J}{\partial o_{11}}+\frac{\partial J}{\partial o_{21}}$

$∂J∂b2=∂J∂o12+∂J∂o22\frac{\partial J}{\partial b_2}=\frac{\partial J}{\partial o_{12}}+\frac{\partial J}{\partial o_{22}}$

即： $[∂J∂bL+1]=[∂J∂b1∂J∂b2]=[∂J∂o11+∂J∂o21∂J∂o12+∂J∂o22]\left[\begin{matrix}\frac{\partial J}{\partial b_{L+1}}\end{matrix}\right]=\left[\begin{matrix}\frac{\partial J}{\partial b_1}\\\frac{\partial J}{\partial b_2}\end{matrix}\right]=\left[\begin{matrix}\frac{\partial J}{\partial o_{11}}+\frac{\partial J}{\partial o_{21}}\\\frac{\partial J}{\partial o_{12}}+\frac{\partial J}{\partial o_{22}}\end{matrix}\right]$

此矩阵每行的元素对于把 $∂J∂OUT\frac {\partial J}{\partial OUT}$ 矩阵的每列元素相加。

总结：

可见，不论 $J (w)$ 对 $w$ 还是对 $b$ 求偏导，都用到 $∂J∂OUT\frac {\partial J}{\partial OUT}$ 。所以可以把此规律推广到 $h1=xw1+b~1h_1=xw_1+\tilde b_1$ , $h2=Z1w2+b~2h_2=Z_1w_2+\tilde b_2$ 等所有的线性连接层，可以通过其输出的 $∂J∂OUT\frac {\partial J}{\partial OUT}$ 求出 $J (w)$ 对 $w$ 和对 $b$ 的偏导数。如，对于第L-1层，有 $∂J∂WL=ZL−1T∂J∂hL\frac{\partial J}{\partial W_{L}}=Z_{L-1}^T\frac {\partial J}{\partial h_L}$ 。而前向传播的时候， $Z_{L-1}$ 已经求出来了，所以 $J (w)$ 对本层权重矩阵 $w$ 的梯度为上一层结果的转置 $Z_{L-1}^T$ 乘以权重矩阵后面一个矩阵的梯度 $∂J∂hL\frac {\partial J}{\partial h_L}$ 。

所以反向传播的时候，若要算权重矩阵 $w$ 的梯度，还要用到其后面的矩阵的梯度 $∂J∂hL\frac {\partial J}{\partial h_L}$ （因为 $Z_{L-1}^T$ 已知），而这是要求的。

求 $∂J∂hL\frac {\partial J}{\partial h_L}$ ：

根据最后一层：
$OUT=ZLwL+1+b~L+1OUT=Z_Lw_{L+1}+\tilde b_{L+1}$

$ZL=[z11z12z13z21z22z23]Z_L=\left[\begin{matrix}z_{11}&z_{12}&z_{13}\\z_{21}&z_{22}&z_{23}\end{matrix}\right]$

对 $Z$ 求偏导：
$∂J∂z11=∂J∂o11w11+∂J∂o12w12\frac{\partial J}{\partial z_{11}}=\frac{\partial J}{\partial o_{11}}w_{11}+\frac{\partial J}{\partial o_{12}}w_{12}$ ， $∂J∂z12=∂J∂o11w21+∂J∂o12w22\frac{\partial J}{\partial z_{12}}=\frac{\partial J}{\partial o_{11}}w_{21}+\frac{\partial J}{\partial o_{12}}w_{22}$ ,

$∂J∂z13=∂J∂o11w31+∂J∂o12w32\frac{\partial J}{\partial z_{13}}=\frac{\partial J}{\partial o_{11}}w_{31}+\frac{\partial J}{\partial o_{12}}w_{32}$

$∂J∂z21=∂J∂o21w11+∂J∂o22w12\frac{\partial J}{\partial z_{21}}=\frac{\partial J}{\partial o_{21}}w_{11}+\frac{\partial J}{\partial o_{22}}w_{12}$ ， $∂J∂z22=∂J∂o21w21+∂J∂o22w22\frac{\partial J}{\partial z_{22}}=\frac{\partial J}{\partial o_{21}}w_{21}+\frac{\partial J}{\partial o_{22}}w_{22}$ ,

$∂J∂z23=∂J∂o21w31+∂J∂o22w32\frac{\partial J}{\partial z_{23}}=\frac{\partial J}{\partial o_{21}}w_{31}+\frac{\partial J}{\partial o_{22}}w_{32}$

写成矩阵：

$[∂J∂z11∂J∂z12∂J∂z13∂J∂z21∂J∂z22∂J∂z23]=[∂J∂o11∂J∂o12∂J∂o21∂J∂o22][w11w21w31w12w22w32]\left[\begin{matrix}\frac{\partial J}{\partial z_{11}}&\frac{\partial J}{\partial z_{12}}&\frac{\partial J}{\partial z_{13}}\\\frac{\partial J}{\partial z_{21}}&\frac{\partial J}{\partial z_{22}}&\frac{\partial J}{\partial z_{23}}\end{matrix}\right]=\left[\begin{matrix}\frac{\partial J}{\partial o_{11}}&\frac{\partial J}{\partial o_{12}}\\\frac{\partial J}{\partial o_{21}}&\frac{\partial J}{\partial o_{22}}\end{matrix}\right]\left[\begin{matrix}w_{11}&w_{21}&w_{31}\\w_{12}&w_{22}&w_{32}\end{matrix}\right]$

所以：

$∂J∂ZL=∂J∂OUTWL+1T\frac{\partial J}{\partial Z_L}=\frac{\partial J}{\partial OUT}W_{L+1}^T$

( $WL+1=[w11w12w21w22w31w32]W_{L+1}=\left[\begin{matrix}w_{11}&w_{12}\\w_{21}&w_{22}\\w_{31}&w_{32}\end{matrix}\right]$ )

这样，在式子 $OUT=ZLwL+1+b~L+1OUT=Z_Lw_{L+1}+\tilde b_{L+1}$ 中：

$∂J∂WL+1=ZLT∂J∂OUT\frac{\partial J}{\partial W_{L+1}}=Z_L^T\frac {\partial J}{\partial OUT}$

$∂J∂ZL=∂J∂OUTWL+1T\frac{\partial J}{\partial Z_L}=\frac{\partial J}{\partial OUT}W_{L+1}^T$

$W_{L+1}$ （可以用梯度下降更新）和 $Z_L$ 的梯度都有了。

但是 $Z_L$ 和 $h_L$ 之间有个非线性变换 $f_L$ ，如果可以通过非线性变换 $f_L$ 求出 $∂J∂hL\frac{\partial J}{\partial h_{L}}$ ，这样就可以在反向传播的时候使用 $h_L$ 的梯度 $∂J∂hL\frac{\partial J}{\partial h_{L}}$ 求解权重矩阵 $w$ 的梯度 $∂J∂WL\frac{\partial J}{\partial W_{L}}$ ：

$∂J∂WL=ZL−1T∂J∂hL\frac{\partial J}{\partial W_{L}}=Z_{L-1}^T\frac {\partial J}{\partial h_L}$

下面求损失函数对 $h_L$ 的梯度 $∂J∂hL\frac{\partial J}{\partial h_{L}}$

非线性变换 $f_L$ 常见的函数有3种：

1. 非线性变换 $f_L$ 为Sigmoid函数

若 $f_L$ 为Sigmoid函数，则：
$ZL=Sigmoid(hL)=11+e−hLZ_L=Sigmoid(h_L)=\frac {1}{1+e^{-h_L}}$

$∂J∂hL=∂J∂ZLdZLdhL=∂J∂ZLe−hL(1+e−hL)2=∂J∂ZL1(1+e−hL)2e−hL(1+e−hL)2=∂J∂ZLZL(1−ZL)\frac {\partial J}{\partial h_L}=\frac {\partial J}{\partial Z_L}\frac{dZ_L}{dh_L}=\frac {\partial J}{\partial Z_L}\frac{e^{-hL}}{(1+e^{-h_L})^2}=\frac {\partial J}{\partial Z_L}\frac{1}{(1+e^{-h_L})^2}\frac{e^{-hL}}{(1+e^{-h_L})^2}=\frac {\partial J}{\partial Z_L}Z_L(1-Z_L)$

即 $∂J∂hL\frac{\partial J}{\partial h_{L}}$ 可以用 $Z_L$ 来表示：

$∂J∂hL=∂J∂ZLZL(1−ZL)\frac {\partial J}{\partial h_L}=\frac {\partial J}{\partial Z_L}Z_L(1-Z_L)$

由于 $J$ 是标量，上式表示对矩阵中所有元素都进行这样的计算，所以得到的 $∂J∂hL\frac{\partial J}{\partial h_{L}}$ 维度同

2. 非线性变换 $f_L$ 为tanh(双曲正切)函数

若 $f_L$ 为tanh函数，则：

$ZL=tanh(hL)=ehL−e−hLehL+e−hLZ_L=tanh(h_L)=\frac{e^{h_L}-e^{-h_L}}{e^{h_L}+e^{-h_L}}$

$∂J∂hL=∂J∂ZLdZLdhL=∂J∂ZL4(ehL+e−hL)2=∂J∂ZL[1−(ehL−e−hLehL+e−hL)2]=∂J∂ZL(1−ZL2)\frac {\partial J}{\partial h_L}=\frac {\partial J}{\partial Z_L}\frac{dZ_L}{dh_L}=\frac {\partial J}{\partial Z_L}\frac{4}{(e^{h_L}+e^{-h_L})^2}=\frac {\partial J}{\partial Z_L}[1-(\frac{e^{h_L}-e^{-h_L}}{e^{h_L}+e^{-h_L}})^2]\\=\frac {\partial J}{\partial Z_L}(1-Z_L^2)$

即：

$∂J∂hL=∂J∂ZL(1−ZL2)\frac {\partial J}{\partial h_L}=\frac {\partial J}{\partial Z_L}(1-Z_L^2)$

写成这个形式的好处是，只要储存 $Z_L$ 即可，不需要储存 $h_L$ 。

3. 非线性变换 $f_L$ 为ReLU函数(Rectified Linear Unit,线性整流函数)

若 $f_L$ 为ReLU函数，则：

$ZL=ReLU(hL)={0，hL≤0hL，hL>0Z_L=ReLU(h_L)=\begin{cases}0，h_L\leq 0\\h_L，h_L>0\end{cases}$

$∂J∂hL=∂J∂ZLdZLdhL={0，hL≤0∂J∂ZL，hL>0\frac {\partial J}{\partial h_L}=\frac {\partial J}{\partial Z_L}\frac{dZ_L}{dh_L}=\begin{cases}0，h_L\leq0\\\frac{\partial J}{\partial Z_L}，h_L>0\end{cases}$