深度学习反向传播backward在随机梯度下降中的运用

原创已于 2022-03-25 09:36:04 修改 · 4.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #深度学习

于 2022-03-25 09:18:30 首次发布

深度学习专栏收录该内容

5 篇文章

订阅专栏

本文以简单的神经网络为例，介绍了损失函数的概念及其计算方法，并详细解析了随机梯度下降(SGD)算法的工作原理，包括如何通过迭代更新权重来最小化损失函数。

以最简单的神经网络为例

损失函数

$Loss=\sum||w_{1} * x_{1} + w_{2} * x_{2} - y||^{2}$

损失函数为通过随机设定的w1和w2 得出的y的近似值与真实y的差距

随机梯度下降（SGD）

$w^{new} = w - \eta \cdot \frac{\partial Loss}{\partial w}$

通过此公式不断更新w使w靠近真实值

$\frac{\partial Loss}{\partial w}$ 为当前误差关于w的梯度，梯度方向为数值(Loss)增长最快的方向

所以我们沿梯度反方向更新，即Loss下降最快的方向

η：学习率，控制w更新的步长

简单的例题

真实值为： $x_{1}=1,x_{2}=2,w_{1}=0.4,w_{2}=0.5,y=1.4$

假设我们只知道 $x_{1},x_{2},y$ 并令η（学习率）为0.1，初始化权重 $w_{1}=0.5,w_{2}=0.4$

$\hat{y}$ 为初始化权重所计算得出的估计值

损失函数为： $Loss=\frac{1}{2}(\hat{y} - y)^{2}=\frac{1}{2}(1*0.5+2*0.4-1.4)^{2}=0.005$

更新 $w_{1}$ : $\frac{\partial Loss}{\partial w_{1}}=\frac{\partial Loss}{\partial y}*\frac{\partial y}{\partial w_{1}}$

$\frac{\partial Loss}{\partial y}={\frac{1}{2}(\hat{y}-y)^{2}}'=\frac{1}{2}*2*(\hat{y}-y )=\hat{y}-y$

$\frac{\partial y}{\partial w_{1}}=(w_{1} * x_{1} + w_{2}*x_{2})'=x1$

所以： $\frac{\partial Loss}{\partial w_{1}}=(\hat{y}-y)*x1=-0.1$

$w_{1}^{new} = w_{1} - \eta \cdot \frac{\partial Loss}{\partial w_{1}}$ 更新得： $w_{1}^{new}=0.51$

同理得 $w_{2}^{new}=0.42$

通过更新完的权重可以得出新的损失函数

$Loss=\frac{1}{2}(\hat{y} - y)^{2}=\frac{1}{2}(1*0.51+2*0.42-1.4)^{2}=0.00125$

比上一次小了不少

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。