神经网络-误差反向传播算法(二)

最新推荐文章于 2024-08-03 02:20:31 发布

「已注销」

最新推荐文章于 2024-08-03 02:20:31 发布

阅读量799

点赞数

CC 4.0 BY-SA版权

分类专栏：神经网络与深度学习文章标签：神经网络深度学习

本文链接：https://blog.youkuaiyun.com/xu_ampl/article/details/95083412

本文详细介绍了神经网络中的误差反向传播算法，包括权重矩阵、偏置向量、激活值等概念，以及二次代价函数。通过四个基本方程阐述了如何计算网络中任意偏置和权重的改变率，提供了前向传播与反向误差传播的步骤，有助于理解神经网络的学习过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

神经网络与深度学习 $Nielsen)\text{(Michael Nielsen)}$ 笔记(二)
误差反向传播算法
首先定义神经网络中的一些重要参数
$wjklw^{l}_{jk}$ :表示从 $(l−1)th(l-1)^{\mathrm{th}}$ 层的第 $kthk^{\mathrm{th}}$ 个神经元到 $lthl^{\mathrm{th}}$ 层的第 $jthj^{\mathrm{th}}$ 个神经元的连接权重，如下图所示

$b_{j}^{l}$ ：表示在 $lthl^{\mathrm{th}}$ 层第 $jthj^{\mathrm{th}}$ 个神经元的偏置
$a_{j}^{l}$ ：表示 $lthl^{\mathrm{th}}$ 层第 $jthj^{\mathrm{th}}$ 个神经元的激活值，如下图所示：

$lthl^{\mathrm{th}}$ 层第 $jthj^{\mathrm{th}}$ 个神经元的激活值 $a_{j}^{l}$ 和 $(l−1)th(l-1)^{\mathrm{th}}$ 层的激活值通过下面方程关联起来 $ajl=σ(∑kwjklakl−1+bjl)a_{j}^{l}=\sigma\left(\sum_{k} w_{j k}^{l} a_{k}^{l-1}+b_{j}^{l}\right)$ 其中求和是在 $(l−1)th(l-1)^{\mathrm{th}}$ 层的所有 $k$ 个神经元上进行的.
定义权重矩阵 $w^l$ ，第 $jthj^{\mathrm{th}}$ 行第 $kthk^{\mathrm{th}}$ 列的元素就是 $w_{j k}^{l}$ ，对每一层定义一个偏置向量，则 $lthl^{\mathrm{th}}$ 层的偏置向量为 $b^l$ 激活向量定义为 $a^l$ ，其元素为激活值 $a_{j}^{l}$ ，于是上式的向量形式可写成： $al=σ(wlal−1+bl)a^{l}=\sigma\left(w^{l} a^{l-1}+b^{l}\right)$ 令中间量 $zl≡wlal−1+blz^{l} \equiv w^{l} a^{l-1}+b^{l}$ ，称 $z^l$ 为 $l$ 层神经元的带权输入，上式也写成 $al=σ(zl)a^{l}=\sigma\left(z^{l}\right)$ 的形式, $z^l$ 的每个元素是 $zjl=∑kwjklakl−1+bjlz_{j}^{l}=\sum_{k} w_{j k}^{l} a_{k}^{l-1}+b_{j}^{l}$ ， $z_j^l$ 是第 $l$ 层第 $j$ 个神经元的激活函数的带权输入
二次代价函数： $C=12n∑x∥y(x)−aL(x)∥2C=\frac{1}{2 n} \sum_{x}\left\|y(x)-a^{L}(x)\right\|^{2}$ ， $L$ 表示网络的层数
$Hahamard\boldsymbol{\text{Hahamard}}$ 乘积 $\odot t$ 表示按元素乘积，如： $[12]⊙[34]=[1∗32∗4]=[38]\left[\begin{array}{l}{1} \\ {2}\end{array}\right] \odot\left[\begin{array}{l}{3} \\ {4}\end{array}\right]=\left[\begin{array}{l}{1 * 3} \\ {2 * 4}\end{array}\right]=\left[\begin{array}{l}{3} \\ {8}\end{array}\right]$
反向传播的四个方程
为了计算偏导数 $∂C∂wjkl\frac{\partial C }{ \partial w_{j k}^{l}}$ , $∂C∂jl\frac{\partial C }{ \partial _{j}^{l}}$ ，首先引入一个中间量， $δjl\delta_{j}^{l}$ ，我们称为在 $lthl^{\mathrm{th}}$