DNN前向传播和反向传播

最新推荐文章于 2022-05-27 11:35:17 发布

原创最新推荐文章于 2022-05-27 11:35:17 发布 · 422 阅读

0 ·

CC 4.0 BY-SA版权

Deep Learning 专栏收录该内容

4 篇文章

订阅专栏

深度神经网络（Deep Neural Networks）

在这里插入图片描述
Forward

输入: 总层数L，所有隐藏层和输出层对应的矩阵𝑊(从2开始)，偏倚向量𝑏，输入值向量𝑥
输出：输出层的输出 $a^L$

初始化 $a^1=x$
$Lfor\; l=2\;to\; L$ ： $al=σ(zl)=σ(Wlal−1+bl)a^l = \sigma(z^l) = \sigma(W^la^{l-1} + b^l)$
最后的结果即为输出 $a^L$

Back Propagation
$\frac{1}{2}||a^L-y||_2^2$ $δL=∂J(W,b,x,y)∂zL=(aL−y)⊙σ′(zL)\delta^L = \frac{\partial J(W,b,x,y)}{\partial z^L} = (a^L-y)\odot \sigma^{'}(z^L)$ $δl=∂J(W,b,x,y)∂zl=(∂zl+1∂zl)T∂J(W,b,x,y)∂zl+1=(∂zl+1∂zl)Tδl+1\delta^{l} = \frac{\partial J(W,b,x,y)}{\partial z^l} = (\frac{\partial z^{l+1}}{\partial z^{l}})^T\frac{\partial J(W,b,x,y)}{\partial z^{l+1}} =(\frac{\partial z^{l+1}}{\partial z^{l}})^T \delta^{l+1}$ $zl+1=Wl+1al+bl+1=Wl+1σ(zl)+bl+1z^{l+1}= W^{l+1}a^{l} + b^{l+1} = W^{l+1}\sigma(z^l) + b^{l+1}$ $δl=(∂zl+1∂zl)T∂J(W,b,x,y)∂zl+1=(Wl+1)Tδl+1⊙σ′(zl)\delta^{l} = (\frac{\partial z^{l+1}}{\partial z^{l}})^T\frac{\partial J(W,b,x,y)}{\partial z^{l+1}} =(W^{l+1})^T\delta^{l+1}\odot \sigma^{'}(z^l)$ $∂J(W,b,x,y)∂Wl=δl(al−1)T\frac{\partial J(W,b,x,y)}{\partial W^l} = \delta^{l}(a^{l-1})^T$ $∂J(W,b,x,y)∂bl=δl\frac{\partial J(W,b,x,y)}{\partial b^l} = \delta^{l}$ 符号⊙代表Hadamard积，矩阵点乘

输入: 总层数L，以及各隐藏层与输出层的神经元个数，激活函数σ，损失函数，迭代步长𝛼，最大迭代次数MAX与停止迭代阈值𝜖，m个训练样本 ${(x_1,y_1), (x_2,y_2), ..., (x_m,y_m)\}$
输出：各隐藏层与输出层的线性关系系数矩阵𝑊和偏倚向量𝑏

初始化各隐藏层与输出层的线性关系系数矩阵𝑊和偏倚向量𝑏的值为一个随机值。
$maxfor\; iter\; to\; 1\; to\; max$ : 3-5
$mfor\; i =1\; to\; m$ ：
- DNN输入 $a^1=x^1$
- $Lfor\; l=2\;to\; L$ ，计算 $ai,l=σ(zi,l)=σ(Wlai,l−1+bl)a^{i,l} = \sigma(z^{i,l}) = \sigma(W^la^{i,l-1} + b^l)$
- 通过损失函数计算输出层的 $δi,L\delta^{i,L}$
- $2for\; l=L-1\;to\; 2$ , 进行反向传播算法计算 $δi,l=(Wl+1)Tδi,l+1⊙σ′(zi,l)\delta^{i,l} = (W^{l+1})^T\delta^{i,l+1}\odot \sigma^{'}(z^{i,l})$
$Lfor\; l =2\; to\; L$ ，更新第𝑙层的 $W^l,b^l$ : $Wl=Wl−α∑i=1mδi,l(ai,l−1)TW^l = W^l -\alpha \sum\limits_{i=1}^m \delta^{i,l}(a^{i, l-1})^T$ $bl=bl−α∑i=1mδi,lb^l = b^l -\alpha \sum\limits_{i=1}^m \delta^{i,l}$
如果所有𝑊, 𝑏的变化值都小于停止迭代阈值𝜖，则跳出迭代循环。
输出各隐藏层与输出层的线性关系系数矩阵𝑊和偏倚向量𝑏。