11、梯度与初始化:反向传播算法详解

梯度与初始化:反向传播算法详解

反向传播算法基础

在神经网络计算中,当我们反向遍历网络时,会发现很多所需的项在上一步已经计算过,无需重新计算。这种反向遍历网络来计算导数的过程被称为反向传播。

反向传播背后的思想相对容易理解,但由于偏置和权重项分别是向量和矩阵,其推导需要用到矩阵微积分。为了更好地理解其底层机制,我们先从一个简单的标量参数玩具模型开始推导反向传播,然后将同样的方法应用到深度神经网络中。

玩具示例

考虑一个具有八个标量参数 $\phi = {\beta_0, \omega_0, \beta_1, \omega_1, \beta_2, \omega_2, \beta_3, \omega_3}$ 的模型 $f[x, \phi]$,它由 $\sin[\cdot]$、$\exp[\cdot]$ 和 $\cos[\cdot]$ 函数组成:
[f[x, \phi] = \beta_3 + \omega_3 \cdot \cos\left[\beta_2 + \omega_2 \cdot \exp\left[\beta_1 + \omega_1 \cdot \sin[\beta_0 + \omega_0 \cdot x]\right]\right]]
同时,定义一个最小二乘损失函数 $L[\phi] = \sum_{i} \ell_i$,其中:
[\ell_i = (f[x_i, \phi] - y_i)^2]
这里,$x_i$ 是第 $i$ 个训练输入,$y_i$ 是第 $i$ 个训练输出。可以将其看作一个简单的神经网络,每层有一个输入、一个输出和一个隐藏单元,且每层之间使用不同的激活函数 $\sin[\cdot]$

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值