【资深AI工程师经验分享】：高效使用PyTorch冻结策略的7个秘诀

PyTorch参数冻结的7大高效策略

原创于 2025-11-16 15:47:22 发布 · 588 阅读

11 ·

CC 4.0 BY-SA版权

第一章：PyTorch参数冻结的核心概念与应用场景

在深度学习模型训练过程中，参数冻结是一种重要的优化策略，用于控制模型中某些层或模块的参数是否参与梯度更新。通过冻结特定参数，可以有效减少计算开销、防止预训练权重被破坏，并支持迁移学习等高级应用。

参数冻结的基本原理

在 PyTorch 中，每个张量（Tensor）都包含一个 requires_grad 属性，该属性决定了该张量是否需要计算梯度。对于模型中的参数，若将其 requires_grad 设置为 False，则在反向传播时不会计算其梯度，从而实现参数冻结。

# 冻结卷积基网络的所有参数
model = torchvision.models.resnet18(pretrained=True)
for param in model.parameters():
    param.requires_grad = False

# 解冻最后的全连接层，使其可训练
model.fc.requires_grad = True

上述代码首先加载预训练的 ResNet-18 模型，并冻结所有层的参数。随后，单独启用全连接层（fc）的梯度计算，以便在新任务上进行微调。

典型应用场景

迁移学习：利用预训练模型在新数据集上快速收敛，仅训练最后几层。
特征提取器固定：将 CNN 的卷积部分作为固定特征提取器，避免破坏已有特征表示。
分阶段训练：先冻结主干网络训练头部，再解冻部分层进行微调。

参数状态查看方法

可通过以下代码检查模型中各层的可训练状态：

for name, param in model.named_parameters():
    print(f"{name}: requires_grad={param.requires_grad}")

该操作输出每层参数名称及其是否参与梯度更新，便于调试冻结逻辑。

场景	冻结部分	可训练部分
迁移学习	主干网络（Backbone）	分类头
微调BERT	底层Transformer块	顶层+任务头

第二章：基于requires_grad的冻结策略

2.1 requires_grad机制原理剖析

PyTorch 中的 `requires_grad` 是自动微分机制的核心开关，用于控制张量是否需要计算和追踪梯度。

梯度追踪的开启与关闭

当设置 `requires_grad=True` 时，PyTorch 会记录对该张量的所有操作，构建动态计算图，为反向传播提供支持。

x = torch.tensor([2.0, 3.0], requires_grad=True)
y = x ** 2
y.backward(torch.tensor([1.0, 1.0]))
print(x.grad)  # 输出: tensor([4.0, 6.0])

上述代码中，`x` 开启了梯度追踪，`y = x^2` 的导数为 `2x`，调用 `backward()` 后，`x.grad` 正确累积梯度值。

计算图的动态构建

每个参与运算且 `requires_grad=True` 的张量都会通过 `grad_fn` 记录其生成函数，形成动态计算图。该机制允许灵活修改网络结构，支持条件分支等复杂逻辑。

`requires_grad=True`：参与梯度计算
`requires_grad=False`：脱离计算图，节省内存
可通过 `with torch.no_grad():` 上下文临时禁用梯度追踪

2.2 实践：通过设置requires_grad=False冻结指定层

在深度学习模型微调中，冻结部分网络层是常见优化策略。通过将特定层的参数 `requires_grad` 属性设为 `False`，可阻止梯度反向传播至这些层，从而避免其权重被更新。

冻结卷积基底示例

import torch.nn as nn

model = nn.Sequential(
    nn.Conv2d(3, 64, kernel_size=3),
    nn.ReLU(),
    nn.Linear(64, 10)
)

# 冻结前两层
for param in model[0].parameters():
    param.requires_grad = False

上述代码中，卷积层参数的 `requires_grad` 被设为 `False`，表示该层不参与梯度计算。这常用于迁移学习中固定特征提取层。

参数状态检查

param.requires_grad = False：禁止梯度计算
model.parameters() 遍历时会跳过已冻结层
节省显存并加速训练

2.3 动态冻结与解冻参数的运行时控制

在深度学习训练过程中，动态冻结与解冻模型参数是实现高效微调的关键手段。通过运行时控制，可以灵活调整哪些层参与梯度计算，从而节省内存并加速训练。

参数状态控制机制

利用 PyTorch 的 requires_grad 属性，可在不修改网络结构的前提下控制参数更新行为。

for name, param in model.named_parameters():
    if "encoder" in name:
        param.requires_grad = False  # 冻结编码器
    else:
        param.requires_grad = True   # 解冻其余部分

上述代码遍历模型参数，根据命名规则冻结 encoder 层。设置 requires_grad=False 后，对应参数不再计算梯度，显著降低显存消耗。

应用场景与策略

迁移学习中冻结主干网络，仅训练分类头
逐步解冻：从顶层到底层逐层激活训练
结合学习率调度，实现分层优化策略

该机制支持在训练中途动态切换参数状态，适应复杂任务需求。

2.4 冻结过程中梯度计算的影响分析

在深度学习模型训练中，冻结部分网络层的参数常用于迁移学习或资源优化。此时，被冻结层的梯度计算将被禁用，从而影响整体反向传播过程。

梯度计算状态对比

未冻结层：正常进行前向与反向传播，保留梯度信息（requires_grad=True）
冻结层：不参与梯度更新，节省显存与计算资源，但可能限制模型微调能力

# 示例：冻结 ResNet 的前几层
model = torchvision.models.resnet18(pretrained=True)
for param in model.layer1.parameters():
    param.requires_grad = False

上述代码通过设置 requires_grad=False 来阻止梯度计算。这会使得优化器跳过对应参数的更新，显著降低 GPU 内存占用，尤其适用于小批量训练场景。

性能影响对比

配置	显存使用	训练速度	微调灵活性
全参数训练	高	慢	高
部分冻结	低	快	受限

2.5 常见陷阱与调试技巧

空指针与未初始化变量

在并发编程中，未正确初始化共享变量是常见错误。例如，在Go中启动多个goroutine时，若未同步访问，可能导致读取到零值。

var result int
var wg sync.WaitGroup

wg.Add(1)
go func() {
    defer wg.Done()
    result = 42 // 潜在竞态条件
}()
wg.Wait()
fmt.Println(result)

上述代码虽有等待，但若逻辑复杂易遗漏同步。应使用互斥锁或通道确保安全访问。

死锁识别与避免

死锁常因锁顺序不一致引发。可通过以下策略排查：

统一加锁顺序
使用带超时的锁尝试
启用Go的-race检测器

运行时添加 -race 标志可有效捕获数据竞争，提升调试效率。

第三章：利用named_parameters进行精细化冻结

3.1 named_parameters接口详解与遍历模式

在PyTorch中，`named_parameters()` 是模型参数遍历的核心接口，它返回一个生成器，逐层提供参数名与其对应的 `Parameter` 对象。

基本用法与返回结构

for name, param in model.named_parameters():
    print(f"{name}: {param.shape}")

上述代码输出每层参数的名称和形状。`name` 为字符串，表示参数路径（如 `layers.0.weight`），`param` 为 `torch.nn.Parameter` 类型张量。

应用场景：冻结特定层

通过名称匹配控制哪些参数参与梯度更新
实现迁移学习中的分层训练策略

例如，仅训练分类头：

for name, param in model.named_parameters():
    if not name.startswith("classifier"):
        param.requires_grad = False

该模式允许精细化管理模型训练行为，提升调优灵活性。

3.2 按模块名称匹配实现选择性冻结

在模型微调过程中，选择性冻结特定模块可显著提升训练效率并保留预训练知识。通过模块名称匹配，能够精准控制哪些参数参与梯度更新。

模块名称匹配策略

通常使用正则表达式或字符串前缀匹配方式识别目标模块。例如，冻结所有以 encoder 开头的层：

for name, param in model.named_parameters():
    if "encoder" in name:
        param.requires_grad = False

上述代码遍历模型参数，若模块名称包含 "encoder"，则将其 requires_grad 属性设为 False，从而在反向传播中跳过梯度计算。

典型应用场景

仅微调分类头，保持主干网络冻结
解冻最后几层Transformer块以适应下游任务
联合训练中间适配模块（如LoRA）

该方法灵活高效，是迁移学习中的关键实践。

3.3 实战：在ResNet中冻结前N个阶段的参数

在迁移学习中，冻结网络早期阶段的参数有助于保留预训练模型提取的基础特征，同时降低训练开销。

冻结策略设计

ResNet通常分为4个阶段（stage），每个阶段包含多个残差块。冻结前N个阶段意味着这些层的权重在反向传播中不更新。

代码实现


# 假设 model 为 torchvision.models.resnet50(pretrained=True)
def freeze_stages(model, num_stages):
    stages = [model.layer1, model.layer2, model.layer3, model.layer4]
    for i in range(num_stages):
        for param in stages[i].parameters():
            param.requires_grad = False

该函数接收模型和需冻结的阶段数，通过设置 requires_grad=False 阻止梯度计算，从而实现参数冻结。

应用场景

小数据集微调：避免过拟合
资源受限环境：减少显存消耗与计算量

第四章：结合Optimizer的参数组管理策略

4.1 使用param_groups实现差异化学习率与冻结逻辑

在复杂模型训练中，不同层可能需要不同的优化策略。PyTorch 提供了 `param_groups` 机制，允许为模型参数分组并设置独立的学习率和权重衰减。

参数分组的基本结构

通过将模型参数划分为多个组，可以灵活控制每组的优化行为。例如，常用于预训练模型的微调场景。

optimizer = torch.optim.Adam([
    {'params': model.features.parameters(), 'lr': 1e-5},  # 冻结特征提取层
    {'params': model.classifier.parameters(), 'lr': 1e-3}  # 解冻分类头，使用较大学习率
])

上述代码中，`features` 层使用极低学习率（近似冻结），而 `classifier` 层以较高学习率快速收敛，实现迁移学习中的典型策略。

动态调整学习率

训练过程中可按需修改 `param_groups` 中的超参：

访问 optimizer.param_groups[0]['lr'] 获取当前学习率
直接赋值以动态更新，如 param_group['lr'] *= 0.9

4.2 构建自定义参数组以支持灵活训练策略

在深度学习训练中，不同层或模块往往需要差异化的优化策略。通过构建自定义参数组，可为模型的不同部分配置独立的学习率、权重衰减等超参数。

参数分组示例

optimizer = torch.optim.Adam([
    {'params': model.backbone.parameters(), 'lr': 1e-4},
    {'params': model.classifier.parameters(), 'lr': 1e-3, 'weight_decay': 1e-5}
], lr=1e-3)

上述代码将模型主干网络和分类头分为两组，分别设置学习率。主干网络通常已预训练，使用较小学习率进行微调；分类头从零训练，需更高学习率加速收敛。

参数组设计优势

实现分层学习率，提升模型收敛效率
灵活控制正则化强度，防止过拟合
支持复杂训练调度，如渐进式解冻

4.3 冻结与解冻过程中的优化器状态管理

在模型微调过程中，冻结部分参数以减少计算开销是常见策略。然而，当对已冻结的模型进行解冻并恢复训练时，优化器的状态管理变得尤为关键。

优化器状态的同步机制

当参数从冻结状态解冻后，若优化器未正确初始化其动量、方差等状态，可能导致梯度更新不稳定。因此，需确保解冻参数对应的优化器状态被正确注册或重置。

冻结期间：优化器跳过对应参数的更新步骤
解冻瞬间：检查是否为新增参数创建了相应的状态缓冲区（如 Adam 的 exp_avg）

for param in model.parameters():
    if param.requires_grad and param not in optimizer.state:
        optimizer.state[param]['exp_avg'] = torch.zeros_like(param.data)
        optimizer.state[param]['exp_avg_sq'] = torch.zeros_like(param.data)

上述代码确保解冻参数在 Adam 优化器中获得初始状态，避免因状态缺失导致更新偏差。该机制提升了训练连续性与收敛稳定性。

4.4 多阶段训练中的动态参数更新控制

在深度学习的多阶段训练中，动态参数更新控制是提升模型收敛速度与稳定性的关键手段。通过在不同训练阶段调整学习率、动量等超参数，可有效避免梯度震荡或陷入局部最优。

自适应学习率调度策略

采用分段式学习率衰减策略，可在训练初期保持较高学习率以加速收敛，在后期精细调优：


# 模拟多阶段学习率调整
def get_learning_rate(epoch):
    if epoch < 10:
        return 1e-2
    elif epoch < 20:
        return 1e-3
    else:
        return 5e-4

上述代码根据训练轮次动态返回学习率，前10轮使用较大学习率快速逼近最优解，后续逐步降低以增强稳定性。

优化器状态管理

在阶段切换时重置动量缓冲区，防止历史梯度干扰新阶段优化方向；
对不同层设置差异化更新频率，例如冻结特征提取层，仅更新分类头参数。

第五章：总结：高效冻结策略的选型建议与性能权衡

在深度学习模型训练中，冻结策略直接影响训练效率与模型收敛性。针对不同场景，应结合模型结构和数据特性进行策略选择。

根据任务规模灵活调整

对于小样本迁移学习任务（如医学图像分类），通常建议冻结主干网络（Backbone）的前几层，仅微调顶层分类器：

冻结 ResNet 的 conv1–conv3 层，保留更强的通用特征提取能力
对 fc 层和最后的卷积块启用梯度更新


# 示例：PyTorch 中冻结 ResNet 前三层
model = torchvision.models.resnet50(pretrained=True)
for name, param in model.named_parameters():
    if "layer1" in name or "layer2" in name or "layer3" in name:
        param.requires_grad = False

动态冻结提升收敛稳定性

在大模型微调（如 ViT-L/16）中，采用逐步解冻策略可减少灾难性遗忘：

第 1–5 轮：仅训练分类头
第 6–10 轮：解冻最后两个 Transformer 块
第 11 轮起：全模型微调，使用极低学习率（1e-5）

性能对比参考

策略	训练速度 (img/s)	显存占用 (GB)	准确率 (%)
全量微调	89	18.2	76.3
顶部两层解冻	134	11.5	75.8
仅分类头训练	156	9.1	72.1

流程示意：
[输入图像] → [冻结的Backbone] → [可训练Head] → [损失计算]
                      ↓
              梯度仅反传至Head参数