数值稳定性
所有h都是向量,向量对向量求导是矩阵,里面会做d-t次矩阵乘法
让训练更加稳定
- 目标:让梯度值在合理的范围内[1e-6, 1e3]
- 让乘法变为加法
- LSTM,ResNet
- 归一化
- 梯度归一化,梯度裁剪
- 合理的权重初始和激活函数
让每层的方差是一个常数
- 将每层的输出和梯度都看作随机变量
- 均值和方差都保持一致
- 在合理值区间里随机初始参数
- 训练开始的时候更容易有数值不稳定
- 远离最优解的地方损失函数表面可能很复杂
- 最优解附近表面会比较平
- 使用N(0,0.01)来初识可能对小网络没问题,但不能保证深度神经网络
除非输入==输出,不然满足不了第一个条件
、
线性激活函数不会产生非线性
合理权重初始值和激活函数的选取可以提升数值稳定性
Q&A
- inf是权重初始值太大产生的,nan是除0
- 均值和方差做限制