动手学深度学习笔记---4.5 数值稳定性与模型初始化

最新推荐文章于 2025-11-25 13:12:19 发布

原创

最新推荐文章于 2025-11-25 13:12:19 发布 · 342 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习 #人工智能

文章讨论了深度神经网络中由于梯度爆炸和梯度消失现象导致的数值稳定性问题，以及如何通过模型初始化和选择合适的激活函数来缓解这些问题。特别地，提到了Xavier初始化方法和ReLU激活函数在保持梯度稳定方面的优势。

一、数值稳定性

由于链式法则的存在，在神经网络中进行反向传播时，深层的神经网络会使得梯度值在反向传播时出现梯度爆炸或梯度消失的问题。

以多层感知机为例，对于隐藏层 $h^t$ ，存在激活函数 $σ\sigma$ ，该层的输入为 $h^{t-1}$ 满足如下：

$ht=ft(ht−1)=σ(Wtht−1)h^t=f_t(h^{t-1})=\sigma(W^th^{t-1})$

对上述进行求导， $σ\sigma$ 激活函数求导后，对所得向量对角化，变为对角矩阵：

$∂ht∂ht−1=diag(σ′(Wtht−1))Wt\frac{\partial h^t}{\partial h^{t-1}}=diag(\sigma'(W^th^{t-1}))W^t$

假设 $h^t$ 为 $n$ 维向量， $h^{t-1}$ 为 $m$ 维向量，则权重矩阵 $W^t$ 维度必须为 $(n * m)$
$h^t$ 对 $h^{t-1}$ 求导，采用分子布局，所得结果应该为 $n * m$ 维矩阵(雅可比矩阵)
又因为 $W^t$ 为 $n * m$ 维矩阵， $Wt⋅ht−1W^t \cdot h^{t-1}$ 为 $n$ 维向量，为了使得结果满足 $n * m$ 维矩阵
因此需要对向量 $Wt⋅ht−1W^t \cdot h^{t-1}$ 进行对角化，转为 $n * n$ 维对角矩阵，即 $(n * n) * (n * m) = (n * m)$

在整个反向传播过程中，会出现梯度累乘：

$∏i=td−1∂hi+1∂hi=∏i=td−1diag(σ′(Wihi−1))Wi\prod_{i=t}^{d-1}\frac{\partial h^{i+1}}{\partial h^i}=\prod_{i=t}^{d-1}diag(\sigma'(W^ih^{i-1}))W^i$