权值初始化
梯度消失与爆炸




Xavier方法与Kaiming方法
Xavier初始化
方差一致性:保持数据尺度维持在恰当范围,通常方差为1
激活函数:饱和函数,如Sigmoid, Tanh

Kaiming初始化
方差一致性:保持数据尺度维持在恰当范围,通常方差为1
激活函数:ReLU及其变种

常用初始化方法

nn.init.calculate_gain
nn.init.calculate_gain(nonlinearity, param=None)
主要功能:计算激活函数的方差变化尺度
主要参数
- nonlinearity: 激活函数名称
- param: 激活函数的参数,如Leaky ReLU的negative_slop
本文深入探讨了深度学习中权值初始化的重要性,包括梯度消失与爆炸问题的解决方法,详细介绍了Xavier与Kaiming两种初始化方法。Xavier方法适用于Sigmoid和Tanh等饱和激活函数,而Kaiming方法则针对ReLU及其变种。文中还讲解了如何使用nn.init.calculate_gain来计算激活函数的方差变化尺度。

被折叠的 条评论
为什么被折叠?



