神经网络训练全解析:从反向传播到损失函数与权重初始化
1. 反向传播基础回顾
在简单的神经网络中,我们可以通过链式法则来计算更新权重所需的梯度。经过前向传播后,我们能得到以下权重梯度方程:
- $\frac{\partial L}{\partial w_3} = (y - \hat{y})w_2w_1x$
- $\frac{\partial L}{\partial w_2} = (y - \hat{y})w_3w_1x$
- $\frac{\partial L}{\partial w_1} = (y - \hat{y})w_3w_2x$
根据梯度下降的更新规则,权重更新公式如下:
- $w_3 \leftarrow w_3 - \eta \frac{\partial L}{\partial w_3} = w_3 - \eta(y - \hat{y})w_2w_1x$
- $w_2 \leftarrow w_2 - \eta \frac{\partial L}{\partial w_2} = w_2 - \eta(y - \hat{y})w_3w_1x$
- $w_1 \leftarrow w_1 - \eta \frac{\partial L}{\partial w_1} = w_1 - \eta(y - \hat{y})w_3w_2x$
其中,$\eta$ 是学习率,用于控制更新步长。
2. 通用反向传播方法
为了更通用地计算任意网络的梯度,我们重新审视损失函数并引入新的符号。损失函数是网络所有参数(权重和偏置)的函数。例如,一个具有 20 个权重和偏置的网络,其损失函数可表
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



