DNN反向传播推导过程

深度神经网络反向传播详解

最新推荐文章于 2022-03-14 23:38:30 发布

原创

最新推荐文章于 2022-03-14 23:38:30 发布 · 2.7k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文详细介绍了深度神经网络（DNN）的反向传播过程，从LL层的前向传播开始，深入讨论了激活函数为sigmoid时的收敛速度问题，并对比了交叉熵损失函数与均方误差函数在反向传播中的优势。此外，还探讨了softmax激活函数与对数似然损失函数的结合，以及DNN的正则化方法，包括L2正则化和dropout策略。

1. $L$ 层神经网络的前向传播：

设第 $l$ 层的权值矩阵为 $W^l$ ，输出为 $z^l$ ，激活值为 $a^l$ ，激活函数都选用 $\sigma$ ,误差函数选择均方误差，则有如下关系：

z l = W l a l - 1 + b l a l = σ (z l) J (W, b, x, y) = 1 2 | | a L - y | | 22

$z^l=W^la^{l-1}+b^l\\a^l=\sigma(z^l)\\J(W,b,x,y)=\frac{1}{2}||a^L-y||_2^2$

2. $L$ 层神经网络的反向传播：

对于输出层 $L$ 层：

\partial J ( W , b , x , y ) \partial W L = = \partial J ( W , b , x , y ) \partial a L \partial a L \partial z L \partial z L \partial W L (a L - y) ⨀ σ' (z L) (a L - 1) T (18) (19)

$\begin{eqnarray}\frac{\partial J(W,b,x,y)}{\partial W^L}&=&\frac{\partial J(W,b,x,y)}{\partial a^L}\frac{\partial a^L}{\partial z^L}\frac{\partial z^L}{\partial W^L}\\&=&(a^L-y)\bigodot\sigma^{'}(z^L)(a^{L-1})^T\end{eqnarray}$

\partial J ( W , b , x , y ) \partial b L = = \partial J ( W , b , x , y ) \partial a L \partial a L \partial z L

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。