神经网络训练与优化全解析
1. 参数初始化
由于深度神经网络(DNN)训练的目标函数是非凸的,参数初始化方式对最终的解决方案以及训练的难易程度(即信息在模型中前向和后向传播的效果)起着重要作用。以下是一些常见的启发式参数初始化方法:
- 启发式方法
- Xavier初始化(Glorot初始化) :从标准正态分布中采样参数可能导致输出方差远大于输入方差,从而引发梯度爆炸。为解决此问题,建议从均值为0、方差为 $\sigma^2 = 1/fan_{avg}$ 的高斯分布中采样参数,其中 $fan_{avg} = (fan_{in} + fan_{out})/2$,$fan_{in}$ 是单元的输入连接数,$fan_{out}$ 是输出连接数。
- LeCun初始化 :当使用 $\sigma^2 = 1/fan_{in}$ 时,即为LeCun初始化。当 $fan_{in} = fan_{out}$ 时,它等同于Glorot初始化。
- He初始化 :使用 $\sigma^2 = 2/fan_{in}$ 的方法称为He初始化。
不同激活函数适用的初始化方法如下表所示:
| 激活函数 | 推荐初始化方法 |
| ---- | ---- |
| 线性、tanh、logistic、softmax | Glorot初始化 |
| ReLU及其变体 | He初始化 |
| SELU | LeCun初始化 |
此外,还有数据驱动的参数初始化方法:
-
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



