深度学习基础多层感知器&反向传播算法_多层感知的反向传播的矩阵形式-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_42263831/article/details/103079675

本文介绍了深度学习中的多层感知器和反向传播算法。详细阐述了权重矩阵、偏置向量、激活函数、损失函数等概念，并通过反向传播过程解释了权重和偏置的更新方法，使用随机梯度下降法更新网络参数，通过逐层反向传播计算各层的更新值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

定义：
1. $W^{(l)}$ 为第 $(l - 1)$ 层至第l层的权重矩阵， $w^{(l)}_{j,k}$ 为 $W^{(l)}$ 中的第行第 $k$ 列的一项，表示第 $(l - 1)$ 层第 $k$ 个节点到第 $l$ 层第 $j$ 个节点的权重（注意这里 $j, k$ 的对应）。
2. $b^{(l)}$ 为第 $l$ 层的偏置向量， $b^{(l)}_{j}$ 为第 $l$ 层第 $k$ 个节点的偏置。
3. $\sigma(...)$ 代表激活函数。
4. $a^{(l)}=\sigma(z^{(l)})$ ，其中 $a^{(l)}_{j}=\sigma(z^{(l)}_{j})$
5. $z^{(l)}=W^{(l)}a^{(l-1)}+b^{(l)}$ ，其中 $z^{(l)}_{j}=(\sum_{k}{w^{(l)}_{j,k}a^{(l-1)}_{k}})+b^{(l)}_{j}$
6. $C (. . .)$ 代表损失函数。
7. $\alpha$ 代表学习速率

反向传播

假设这里多层感知器层数为 $L$ ，权重及偏移的更新采用随机梯度下降法。
$\Delta{w^{(l)}_{j,k}}=-\alpha\frac{\partial{C}}{\partial{w^{(l)}_{j,k}}},\Delta{b^{(l)}_{j}}=-\alpha\frac{\partial{C}}{\partial{b^{(l)}_{j}}}$
设 $\delta^{(l)}_{j}=\frac{\partial{C}}{\partial{z^{l}_{j}}}$ ,我们首先对最后一层的更新进行讨论：
$\frac{\partial{C}}{\partial{w^{(L)}_{j,k}}}=\sum_{i}{\frac{\partial{C}}{\partial{z^{(L)}_{i}}}\frac{\partial{z^{(L)}_{i}}}{\partial{w^{(L)}_{j,k}}}}$
$w h i l e$ $i\neq{j},\frac{\partial{z^{(L)}_{i}}}{\partial{w^{(L)}_{j,k}}}=0$ ，所以
$\frac{\partial{C}}{\partial{w^{(L)}_{j,k}}}={\frac{\partial{C}}{\partial{z^{(L)}_{j}}}\frac{\partial{z^{(L)}_{j}}}{\partial{w^{(L)}_{j,k}}}}=\delta^{(L)}_{j}a^{(L-1)}_{k}$
同理
$\frac{\partial{C}}{\partial{b^{(L)}_{j}}}=\delta^{(L)}_{j}a^{(L-1)}_{k}$
在这里
$\delta^{(l)}_{j}=\frac{\partial{C}}{\partial{z^{l}_{j}}}=\frac{\partial{C}}{\partial{a^{l}_{j}}}\sigma'(z^{l}_{j})$
对其他的 $l < L$ ，我们可以用第 $(l + 1)$ 层上的结果逆推得到第 $l$ 层上的结果，也就是一个反向传播的过程。
和上边第 $L$ 层类似，有
$\frac{\partial{C}}{\partial{w^{(l)}_{j,k}}}=\delta^{(l)}_{j}a^{(l-1)}_{k},\frac{\partial{C}}{\partial{b^{(l)}_{j}}}=\delta^{(l)}_{j}$
现在只要得到 $\delta^{(l)}_{j}$ 即可算出第 $l$ 层的更新式。
$\delta^{(l)}_{j}=\frac{\partial{C}}{\partial{z^{l}_{j}}}=\sum_{i}{\frac{\partial{C}}{\partial{z^{l+1}_{i}}}\frac{\partial{z^{l+1}_{i}}}{\partial{z^{l}_{j}}}}=\sum_{i}{\delta^{(l+1)}_{i}w^{(l+1)}_{i,j}\sigma'(z^{(l)}_{j})}$
而在上边我们得到了最后一层的所有 $\delta^{(L)}_{j}$ ，我们可以由此得到第 $(L - 1), (L - 2), . . ., 1$ 层的更新式，完成整个网络的更新过程。