详解反向传播算法(下)

最新推荐文章于 2025-05-30 08:01:37 发布

counter_king

最新推荐文章于 2025-05-30 08:01:37 发布

阅读量1.6k

点赞数

原文出处：详解反向传播算法(下)

详解反向传播算法(下)

晓雷

10 个月前

神经网络结构图：

示例网络图

其中C是损失函数，例如C可以取：

梯度下降（SGD）进行学习时，核心问题是求解损失函数C关于所有网络参数 $w_{jk},b_j$ 的偏导数 $\frac{\partial C}{\partial w_{jk}} ,\frac{\partial C}{\partial b_j}$ 。根据详解反向传播算法(上) 我们已经知道用反向传播算法可以“一次反向计算”得到损失函数C关于网络中所有参数的偏导数。模仿详解反向传播算法(上) 的推理过程，我们首先画出上面网络图的详细计算图：再看看具体怎么样反向传播求偏导数。

神经网络计算图

对应计算图如下：（只展开了最后两层的计算图）：

绿色代表权重参数 $w_{jk}$ ,橙色代表基底参数 b_j 。可见虽然网络图上只是简单几条线，计算图还是蛮复杂的。

现在我们在计算图箭头上标出对应的偏导数（只标出了一部分）。

反向传播四公式

上面计算图上每一个节点关于前一个节点的偏导数都可以求得，根据求导的链式法则，想要求损失函数C关于某一节点的偏导数，只需要“把该节点每条反向路径上的偏导数做乘积，再求和”即可。（ $w_{jk},b_j$ 分别对应绿色和橙色的节点）

现在我们已经可以在计算图上求得损失函数C关于模型参数的偏导数 $\frac{\partial C}{\partial w_{jk}} ,\frac{\partial C}{\partial b_j}$ 。但是还不够优雅，反向传播算法要优雅的很多，它通过定义一个损失（ $\delta_j^l$ ），先逐层向后传播得到每一层节点的损失（ $\delta_j^l$ ），再通过每一个节点的损失（ $\delta_j^l$ ）来求解该节点的 $\frac{\partial C}{\partial w_{jk}} ,\frac{\partial C}{\partial b_j}$ 。

首先记损失函数C关于层的第j个元素的偏导为： $\delta_j^l \equiv \frac{\partial C}{\partial z_j^l}$ ，

最后一层

对于最后一层（L层）的元素j会有：

$\delta_j^L = \frac{\partial C}{\partial z_j^L}=\frac{\partial C}{\partial a_j^L} \cdot \frac{\partial a_j^L}{\partial z_j^L} = \frac{\partial C}{\partial a_j^L} \cdot \sigma^{'}(z_j^L)$

向量化为:

$\bm \delta^L = \begin{pmatrix} \delta_1^L \\\vdots \\ \delta_j^L \\ \vdots\\ \delta_n^L \end{pmatrix}= \begin{pmatrix} \frac{\partial C}{\partial a_1^L} \cdot \sigma^{'}(z_1^L) \\\vdots \\ \frac{\partial C}{\partial a_j^L} \cdot \sigma^{'}(z_j^L) \\ \vdots\\ \frac{\partial C}{\partial a_n^L} \cdot \sigma^{'}(z_n^L) \end{pmatrix}= \begin{pmatrix} \frac{\partial C}{\partial a_1^L} \\\vdots \\ \frac{\partial C}{\partial a_j^L} \\ \vdots\\ \frac{\partial C}{\partial a_n^L} \end{pmatrix}\odot \begin{pmatrix} \sigma^{'}(z_1^L) \\\vdots \\ \sigma^{'}(z_j^L) \\ \vdots\\ \sigma^{'}(z_n^L) \end{pmatrix} = \bm \nabla_aC \odot \sigma^{'}(\bm z^L)$ (BP1)

其中 $\odot$ 的操作是把两个向量对应元素相乘组成新的元素。

后一层传播到前一层

由前面计算图中L和L-1层所标注的偏导数，可得到倒数第一层（L-1）元素j的损失为：（请仔细对照前面的计算图） $\delta_j^{L-1} = (\sum_{j=1}^n{\frac{\partial z_j^L}{\partial a_{k}^{L-1}} \delta_j^L }) \cdot \sigma_{'}(z_j^{L-1}) = (\sum_{j=1}^n{w_{jk}^L \delta_j^L } ) \cdot \sigma_{'}(z_j^{L-1}) =\begin{pmatrix} w_{1k}^L \cdots w_{jk}^L \cdots w_{nk}^L\\ \end{pmatrix} \begin{pmatrix} \delta_1^L \\ \vdots \\ \delta_j^L\\\vdots\\\delta_n^L \end{pmatrix}\cdot \sigma^{'}(z_j^{L-1})$

向量化： $\delta^{L-1} = ((w^{L})^T\delta^{L} \odot \sigma^{'}(z^{L-1}) )$

这启发我们后一层（ l+1 层）的损失 $\delta^{l+1}$ 如何传播到前一层（层）得到 $\delta^l$ 。(只需要把L用 l+1 替换， L-1 用替换)就得到了逐层传播损失的公式：

$\bm \delta^{l} = ((\bm w^{l+1})^T \bm \delta^{l+1} \odot \sigma^{'}(\bm z^{l}) )$ (BP2)

关于 b_j^l 的偏导数

$\frac{\partial C}{\partial b_j^l} =\frac{ \partial C}{ \partial z_j^l} \frac{\partial z_j^l}{\partial b_j^l} = \delta_j^l \cdot 1 = \delta_j^l$ (BP3)

向量化： $\frac{\partial C}{\partial b^l} =\bm \delta^l$

关于 $w_{jk}^l$ 的偏导数

$\frac{\partial C}{\partial w_{jk}^l} =\frac{ \partial C}{ \partial z_j^l} \frac{\partial z_j^l}{\partial w_{jk}^l} = \delta_j^l \cdot a_k^{l-1}$ （BP4）

向量化： $\frac{\partial C}{\partial w_{j\cdot }^l} =\begin{pmatrix}\delta_j^l a_1^{l-1} \\ \vdots \\ \delta_j^l a_k^{l-1} \\\vdots\\\delta_j^l a_n^{l-1} \end{pmatrix}=\delta_j^l \cdot\begin{pmatrix} a_1^{l-1} \\ \vdots \\ a_k^{l-1} \\\vdots\\ a_n^{l-1} \end{pmatrix}= \delta_j^l \cdot \bm a^{l-1}$ $\Rightarrow$

$\frac{\partial C}{\partial w^l} = \begin{pmatrix}\delta^l_1 \cdot \bm a^{l-1} \\\vdots \\\delta^l_j \cdot \bm a^{l-1}\\\vdots\\\delta^l_n \cdot \bm a^{l-1}\\\end{pmatrix}= \begin{pmatrix}\delta^l_1 \\\vdots \\\delta^l_j \\\vdots\\\delta^l_n \\\end{pmatrix}\cdot \begin{pmatrix} a^{l-1}_1 \cdots a^{l-1}_k \cdots a^{l-1}_n \end{pmatrix}= \bm \delta^l \cdot (\bm a^{l-1})^T$

至此就得到了反向传播的4个公式：

图片来自：Neural networks and deep learning
反向传播算法流程：

流程图来自： Neural networks and deep learning

本文主要参考 Neural networks and deep learning，原作者写的也不错，不过个人觉得如果按照计算图会更加直观，基本不需要数学推导过程，用肉眼看图就可以理解反向传播的四个公式。当然前提是计算图要画的清晰明白。花了半天时间来写这篇文章，其中画图花费了80%的时间，尤其是计算图改了N次，仍然可能存在错误，欢迎指正~

点赞（分享）就是对文章作者的最大鼓励~

------下面只是备份下用过的公式，以备后面修改使用 ------------

$a_j^L=\sigma(z_j^L)$ $a_2^L=\sigma(z_2^L)$ $z_j^L=\sum_{k=1}^{K}{(w_{jk}^L \cdot a_{k}^{L-1}) } +b_{j}^L$ $z_1^L=\sum_{k=1}^{4}{(w_{1k} \cdot a_k^{L-1}) } +b_{1}$ $z_2^L=\sum_{k=1}^{4}{(w_{2k} \cdot a_k^{L-1}) } +b_{2}$ $\frac{\partial a_j^L}{\partial z_j^L} = \sigma^{'}(z_j^L)$ $\frac{\partial z_j^L}{\partial b_j^L} = 1$ $\frac{\partial z_j^L}{\partial w_{jk}^L} =a_k^{L-1}$ $\frac{\partial z_2^L}{\partial a_{k}^{L-1}} =w_{2k}^L$
$\frac{\partial a_k^{L-1}}{\partial z_k^{L-1}} = \sigma^{'}(z_k^{L-1})$ $\frac{\partial z_k^{L-1}}{\partial b_k^{L-1}} = 1$ $\frac{\partial z_k^{L-1}}{\partial w_{km}^{L-1}} =a_m^{L-2}$

------------------------ 备份 end ----------------------------------------------