【深度学习pytorch-29】网络参数初始化

最新推荐文章于 2025-03-08 12:49:38 发布

超华东算法王

最新推荐文章于 2025-03-08 12:49:38 发布

阅读量661

点赞数 7

分类专栏： DL-pytorch 文章标签：深度学习 pytorch 网络

本文链接：https://blog.youkuaiyun.com/m0_69378371/article/details/145662809

版权

DL-pytorch 专栏收录该内容

105 篇文章

订阅专栏

1. 网络参数初始化的作用

网络参数初始化是深度学习模型训练的第一步，它决定了模型参数的初始值。合理的初始化方法可以：

加速模型收敛。
避免梯度消失或梯度爆炸问题。
提高模型的最终性能。

2. 常见的参数初始化方法

2.1 零初始化（Zero Initialization）

方法：将所有参数初始化为 0。
公式：
$\quad b = 0$
问题：
- 如果所有权重初始化为 0，每个神经元的输出相同，梯度更新也相同，导致网络无法学习到有用的特征。
- 通常不适用于神经网络。

2.2 随机初始化（Random Initialization）

方法：从某个分布（如均匀分布或正态分布）中随机采样参数。
公式：
- 均匀分布：
  $\sim U(-a, a)$
- 正态分布：
  $\sim N(0, \sigma^2)$
优点：
- 打破对称性，使每个神经元可以学习到不同的特征。
缺点：
- 如果初始值范围不合适，可能导致梯度消失或梯度爆炸。

2.3 Xavier 初始化（Glorot Initialization）

方法：根据输入和输出的维度调整初始化的范围，使得每一层的输出方差保持一致。
公式：
- 均匀分布：
  $\sim U\left(-\sqrt{\frac{6}{n_{in} + n_{out}}}, \sqrt{\frac{6}{n_{in} + n_{out}}}\right)$
- 正态分布：
  $KaTeX parse error: Expected '}', got '\right' at position 51: …{in} + n_{out}}\̲r̲i̲g̲h̲t̲)$
- 其中， $n_{in}$ 和 $n_{out}$ 分别是输入和输出的神经元数量。
适用场景：
- 适用于 Sigmoid 和 Tanh 等激活函数。

2.4 He 初始化（He Initialization）

方法：针对 ReLU 激活函数设计，考虑了 ReLU 的特性。
公式：
- 均匀分布：
  $\sim U\left(-\sqrt{\frac{6}{n_{in}}}, \sqrt{\frac{6}{n_{in}}}\right)$
- 正态分布：
  $\sim N\left(0, \sqrt{\frac{2}{n_{in}}}\right)$
适用场景：
- 适用于 ReLU 及其变体（如 Leaky ReLU）激活函数。

2.5 正交初始化（Orthogonal Initialization）

方法：将权重矩阵初始化为正交矩阵，使得输入特征的变换保持范数不变。
公式：
- 通过奇异值分解（SVD）生成正交矩阵：
  $\Sigma V^T$
- 其中， $U$ 和 $V$ 是正交矩阵， $\Sigma$ 是对角矩阵。
优点：
- 缓解梯度消失和梯度爆炸问题。
适用场景：
- 适用于 RNN 和 LSTM 等循环神经网络。

2.6 稀疏初始化（Sparse Initialization）

方法：将大部分权重初始化为 0，只有少数权重初始化为非零值。
公式：
$W_{ij} = \begin{cases} c & \text{以概率 } p \\ 0 & \text{以概率 } 1-p \end{cases}$
- 其中， $c$ 是一个常数， $p$ 是稀疏概率。
优点：
- 减少参数之间的相关性，有助于模型学习到更多的特征。
适用场景：
- 适用于某些特定的网络结构或任务。

2.7 预训练初始化（Pretrained Initialization）

方法：使用在大规模数据集上预训练好的模型参数作为初始化。
优点：
- 加速模型收敛，提高模型性能。
- 特别适用于数据量有限的任务。
适用场景：
- 迁移学习或微调预训练模型。

3. 参数初始化的选择建议

Sigmoid/Tanh 激活函数：使用 Xavier 初始化。
ReLU/Leaky ReLU 激活函数：使用 He 初始化。
RNN/LSTM：使用 正交初始化。
迁移学习：使用 预训练初始化。
实验调参：根据具体任务和网络结构选择合适的初始化方法。

4. 代码示例（PyTorch）

import torch
import torch.nn as nn

# 定义一个简单的全连接网络
class SimpleNet(nn.Module):
    def __init__(self):
        super(SimpleNet, self).__init__()
        self.fc1 = nn.Linear(784, 256)
        self.fc2 = nn.Linear(256, 10)
        self.init_weights()

    def init_weights(self):
        # Xavier 初始化
        nn.init.xavier_uniform_(self.fc1.weight)
        nn.init.zeros_(self.fc1.bias)
        # He 初始化
        nn.init.kaiming_normal_(self.fc2.weight, mode='fan_in', nonlinearity='relu')
        nn.init.zeros_(self.fc2.bias)

# 实例化网络
model = SimpleNet()