神经网络

最新推荐文章于 2025-10-15 13:33:38 发布

原创最新推荐文章于 2025-10-15 13:33:38 发布 · 355 阅读

1 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

18 篇文章

订阅专栏

本文介绍了神经网络的基本构成单元——神经元模型，并详细解释了多层前馈神经网络的工作原理及反向传播算法，包括前向传播过程、损失函数计算及权重更新等关键步骤。

优快云这几天坏了ヽ(｀Д´)ﾉ︵ ┻━┻ ┻━┻
##一. 神经元模型
神经网络中最基本的成分：神经元模型
神经元模型：线性模型+激活函数
这里写图片描述
线性模型+符号函数 = 感知机
线性模型+sigmoid函数 = 逻辑回归
##二 . 多层前馈神经网络
定义：每层神经元与下一层神经元全互连，神经元之间不存在同层连接，也不存在跨层连接。

假设第 $l - 1$ 层共有 $m$ 个神经元，第 $l$ 层共有 $n$ 个神经元，
则第 $l$ 层的线性系数 $W$ 组成了一个 $n \times m$ 的矩阵 $W^l$ ,
第 $l$ 层的偏置 $b$ 组成了一个 $n \times 1$ 的向量 $b^l$ ,
第 $l - 1$ 层的的输出 $a$ 组成了一个 $m \times 1$ 的向量 $a^{l−1}$ ，
第 $l$ 层的的未激活前线性输出 $Z$ 组成了一个 $n \times 1$ 的向量 $Z^l$ ,
激活函数 $σ\sigma$ 可以有多种选择。
sigmoid tanh ReLu
第 $l$ 层的的输出 $a$ 组成了一个 $n \times 1$ 的向量 $a^l$ 。则用矩阵法表示，
第 $l$ 层的输出为：
$al=σ(Zl)=σ(Wlal−1+bl)a^l=\sigma (Z^l) = \sigma(W^la^{l-1}+b^l)$
前向传播算法：
从输入层开始，一层层的向后计算，一直到运算到输出层，得到输出结果 $a^L$ 。
##三. 反向传播算法（BackPropagation）
这里写图片描述
训练数据集 $D=\{(x_1,y_1),(x_2,y_2),..(x_m,y_m)\}$
损失函数最小化，神经网络可选的损失函数有很多：平方损失函数，交叉熵，对数似然。
待求参数是每一个层与层之间的权值矩阵 $w^l$ 和偏置矩阵 $b^l$ 。
这里以平方损失函数为例。 $a^L$ 是输出层的结果。
$\frac{1}{2}\|a^L-y\|^2_{2}$
$=12∥σ(WLaL−1+bL)−y∥22=\frac{1}{2}\|\sigma(W^La^{L-1}+b^L)-y\|^2_{2}$
求导
$∂E∂WL=∂E∂aL∂aL∂ZL∂ZL∂WL=(aL−y)⊙σ′(ZL)(aL−1)T\frac{\partial E}{\partial W^L}= \frac{\partial E}{\partial a^L} \frac{\partial a^L}{\partial Z^L}\frac{\partial Z^L}{\partial W^L}=(a^L-y) \odot \sigma^{'}(Z^L)(a^{L-1})^T$
$∂E∂bL=∂E∂aL∂aL∂ZL∂ZL∂bL=(aL−y)⊙σ′(ZL)\frac{\partial E}{\partial b^L}= \frac{\partial E}{\partial a^L} \frac{\partial a^L}{\partial Z^L}\frac{\partial Z^L}{\partial b^L}=(a^L-y) \odot \sigma^{'}(Z^L)$
其中$\odot $表示 H a d a m a r d 积，矩阵的对应元素相乘。 < f o n t c o l o r = r e d > 权值矩阵先影响到输出层神经元的输入$ Z^{L$，再影响到输出层神经元的输出$a}L $，然后影响到损失函数$ E$。
由此我们算出了输出层的梯度，那如何计算下一层，下下一层的梯度呢？
反向传播：从输出层开始，一层一层往下计算

$∂E∂WL−1=∂E∂ZL∂ZL∂ZL−1∂ZL−1∂WL−1\frac{\partial E}{\partial W^{L-1}}= \frac{\partial E}{\partial Z^L} \frac{\partial Z^{L}}{\partial Z^{L-1}}\frac{\partial Z^{L-1}}{\partial W^{L-1}}$
第一项就是上面 $L$ 层梯度链式法则中前两项的乘积
第二项很容易算
$ZL=WLaL−1+bL=WLσ(ZL−1)+bLZ^L=W^La^{L-1}+b^L=W^L\sigma(Z^{L-1})+b^L$
第三项很容易算
$Z^{L-1}=W^{L-1}a^{L-2}+b^{L-1}$
由此算出了 $L - 1$ 层的梯度，如此递推
$L - 2$ 层
$∂E∂WL−2=∂E∂ZL−1∂ZL−1∂ZL−2∂ZL−2∂WL−2\frac{\partial E}{\partial W^{L-2}}= \frac{\partial E}{\partial Z^{L-1}} \frac{\partial Z^{L-1}}{\partial Z^{L-2}}\frac{\partial Z^{L-2}}{\partial W^{L-2}}$
第一项是上面的 $L - 1$ 层梯度链式法则前两项的乘积
第二项第三项同上很好算
根据梯度下降算法（SGD， MBGD）就能学出神经网络了。(╯°O°)╯( ┻━┻再掀一次