【深度学习工程师必看】：3种PyTorch参数冻结模式，你用对了吗？

PyTorch参数冻结三大模式解析

最新推荐文章于 2025-11-26 09:41:07 发布

原创最新推荐文章于 2025-11-26 09:41:07 发布 · 585 阅读

12 ·

CC 4.0 BY-SA版权

部署运行你感兴趣的模型镜像

第一章：PyTorch参数冻结的核心概念与意义

在深度学习模型训练过程中，参数冻结是一种重要的优化策略，主要用于控制模型中哪些参数参与梯度计算与更新。通过冻结部分网络层的参数，可以显著减少训练开销，同时保留预训练模型的有效特征表达能力，广泛应用于迁移学习场景。

参数冻结的基本原理

PyTorch 中每个参数张量（ nn.Parameter）都包含一个 requires_grad 属性，该属性决定是否对该参数计算梯度。当设置为 False 时，对应的参数不会被纳入反向传播的计算图中，从而实现“冻结”。

默认情况下，所有模型参数的 requires_grad=True
冻结操作通过手动设置该标志位实现
仅影响后续的优化器更新行为

典型应用场景

场景	说明
迁移学习	冻结主干网络（如ResNet）提取特征，仅训练分类头
分阶段训练	先冻结部分层训练其他层，再解冻微调整体网络
防止灾难性遗忘	在持续学习中保护已有知识不被覆盖

代码实现示例

# 定义一个简单的神经网络
import torch.nn as nn
model = nn.Sequential(
    nn.Linear(784, 256),
    nn.ReLU(),
    nn.Linear(256, 10)
)

# 冻结前一层的参数
for param in model[0].parameters():
    param.requires_grad = False  # 关闭梯度计算

# 查看哪些参数将被更新
optimizer = torch.optim.SGD(filter(lambda p: p.requires_grad, model.parameters()), lr=0.01)
# 注意：优化器仅接收 requires_grad=True 的参数

graph TD A[原始模型] --> B{选择冻结层} B --> C[设置 requires_grad=False] C --> D[构建优化器时过滤参数] D --> E[训练过程中仅更新可训练参数]

第二章：PyTorch参数冻结的三种核心模式

2.1 模式一：requires_grad=False——最基础的梯度控制机制

在PyTorch中，`requires_grad=False` 是实现梯度计算控制的最基本方式。通过显式关闭张量的梯度追踪功能，可有效减少内存开销并提升训练效率。

梯度开关的作用机制

当一个张量设置 `requires_grad=False` 时，所有基于该张量的操作都不会被记录在计算图中，从而阻止梯度回传。

import torch
x = torch.tensor([1.0, 2.0], requires_grad=True)
w = torch.tensor([0.5, 0.5], requires_grad=False)  # 不参与梯度计算
y = (x * w).sum()
y.backward()
print(x.grad)  # 输出: tensor([0.5, 0.5])
print(w.grad)  # 输出: None

上述代码中，尽管 `w` 参与了前向运算，但由于 `requires_grad=False`，其 `.grad` 属性为 `None`，说明未进行梯度累积。

典型应用场景

冻结预训练模型的部分层参数
处理输入数据或固定权重时避免冗余计算
在推理阶段禁用梯度以节省显存

2.2 模式二：torch.no_grad()上下文管理器——推理阶段的隐式冻结

在模型推理阶段，梯度计算不仅不必要，还会消耗大量内存。`torch.no_grad()` 提供了一种简洁高效的隐式参数冻结机制，通过上下文管理器临时禁用梯度追踪。

使用方式与代码示例

import torch

with torch.no_grad():
    output = model(input_tensor)
    predictions = torch.softmax(output, dim=1)

上述代码块中，`torch.no_grad()` 确保模型前向传播过程中不构建计算图，从而节省显存并加速推理。所有张量操作均不会调用 `.retain_grad()`，自动省去反向传播所需信息。

适用场景对比

训练阶段：需梯度更新，禁用 no_grad；
验证/测试阶段：无需反向传播，推荐启用以提升效率；
大规模推理：显著降低 GPU 内存占用。

2.3 模式三：model.eval()与训练模式分离——状态驱动的参数保护

在深度学习框架中，模型的行为会根据运行阶段动态调整。通过调用 model.train() 或 model.eval()，可切换模型内部的状态，从而控制如 Dropout、BatchNorm 等层的执行逻辑。

训练与评估模式的区别

训练模式：启用 Dropout、BatchNorm 的梯度计算与统计更新；
评估模式：禁用 Dropout，使用 BatchNorm 中累积的均值和方差。

model = MyModel()
model.train()  # 启用训练行为
output_train = model(input_tensor)

model.eval()   # 切换到评估模式
with torch.no_grad():
    output_eval = model(input_tensor)

上述代码展示了模式切换的关键流程。调用 model.eval() 后，所有子模块递归进入评估状态，确保推理过程不受到随机丢弃或批量统计波动的影响，实现参数与行为的双重保护。

2.4 混合冻结策略：多模式协同下的高效微调实践

在大规模预训练模型的微调过程中，混合冻结策略通过动态划分网络层级，实现计算效率与模型性能的平衡。该方法结合全局冻结、分层解冻与局部重训，显著降低显存占用并加快收敛速度。

策略组合模式

底层冻结：固定浅层通用特征提取器参数
中层解冻：激活语义理解相关模块以适应任务
顶层重训：完全更新分类头与注意力投影层

代码实现示例

for name, param in model.named_parameters():
    if "encoder.layer" in name and 6 >= int(name.split(".")[2]) >= 3:
        param.requires_grad = True  # 解冻中间层
    elif "classifier" in name or "pooler" in name:
        param.requires_grad = True  # 更新顶层
    else:
        param.requires_grad = False  # 冻结其余层

上述逻辑通过正则表达式匹配模块路径，精准控制梯度传播范围。其中，第3至第6层Transformer块被选择性激活，兼顾特征迁移能力与任务适配性，有效避免全量微调带来的过拟合风险。

2.5 冻结粒度控制：按层、按模块、按参数名的精准操作

在模型微调过程中，冻结部分参数是提升训练效率与防止过拟合的关键手段。通过细粒度控制，可灵活选择冻结策略。

按层冻结

常见做法是冻结浅层卷积块，保留高层用于任务适配：

for param in model.base_layer.parameters():
    param.requires_grad = False

该代码将 base_layer 所有参数的梯度计算关闭，实现层级别冻结。

按参数名冻结

利用参数名匹配可精确控制：

weight 参数：通常影响大，可选择性冻结
bias 参数：自由度低，常保留更新

使用 named_parameters() 遍历并条件判断，实现基于命名规则的冻结逻辑。

模块级控制

对特定子模块（如BN层、位置编码）进行整体冻结，避免破坏预训练结构稳定性。

第三章：典型应用场景深度解析

3.1 迁移学习中骨干网络的参数冻结技巧

在迁移学习中，骨干网络（Backbone Network）通常是在大规模数据集上预训练好的模型，如ResNet、EfficientNet等。为了保留其已学习到的通用特征表示能力，常采用参数冻结策略。

冻结策略的实现方式

通过设置网络层的 requires_grad 属性为 False，可阻止梯度更新：


import torch.nn as nn

# 假设 model 为预训练的 ResNet
model = torchvision.models.resnet18(pretrained=True)

# 冻结所有卷积层参数
for param in model.parameters():
    param.requires_grad = False

# 替换分类层，使其可训练
model.fc = nn.Linear(model.fc.in_features, num_classes)

上述代码中，冻结了主干网络的所有参数，仅保留最后的全连接层进行微调，有效减少训练开销并防止过拟合。

分层解冻策略

初始阶段：冻结全部主干层，仅训练新增头部
后期微调：逐步解冻浅层或深层模块，以小学习率优化特征提取器

3.2 多任务学习下部分模块冻结的实现方案

在多任务学习中，为防止底层共享参数被特定任务过度调整，常采用模块冻结策略。通过设置 requires_grad 标志位，可精确控制哪些网络层参与梯度更新。

冻结策略实现

以下代码展示如何冻结 ResNet 主干网络中的前三个阶段：


for name, param in model.named_parameters():
    if "layer1" in name or "layer2" in name or "layer3" in name:
        param.requires_grad = False

该逻辑遍历模型参数，匹配指定层名并禁用其梯度计算，仅保留 task-specific 模块可训练，有效提升训练稳定性。

优化器配置适配

冻结后需调整优化器输入参数，仅传入可训练参数：

避免无效计算，降低显存开销
加快反向传播速度
防止冻结层权重更新

3.3 模型蒸馏过程中教师模型的冻结最佳实践

在知识蒸馏中，教师模型应始终处于冻结状态，以确保输出的软标签稳定可靠。冻结意味着不更新其权重，且禁用Dropout与BatchNorm的统计更新。

冻结实现方式

使用PyTorch时，可通过以下代码实现：


with torch.no_grad():
    teacher_model.eval()
    teacher_logits = teacher_model(data)

torch.no_grad() 禁用梯度计算， eval() 切换模型为评估模式，防止归一化层更新统计量。

关键注意事项

确保教师模型的参数 requires_grad = False
避免在训练循环中对教师模型调用 optimizer.step()
使用 DataParallel 或 DistributedDataParallel 时，仍需单独处理教师模型

第四章：性能优化与常见陷阱规避

4.1 冻结不当导致的显存浪费与计算冗余分析

在深度学习模型训练中，若未合理冻结无关参数，将引发显著的显存浪费与计算冗余。例如，在迁移学习中，若骨干网络未被正确冻结，其梯度仍会被计算并占用显存。

常见冻结错误示例

for param in model.backbone.parameters():
    param.requires_grad = False

上述代码虽冻结了骨干网络，但若后续未调用 model.eval()，BatchNorm 层仍会更新统计量，造成冗余计算。

优化策略对比

策略	显存占用	计算开销
未冻结	高	高
正确冻结	低	低

4.2 参数冻结后优化器行为异常的根源与对策

在深度学习训练中，参数冻结常用于迁移学习场景。然而，若模型部分参数被冻结（requires_grad=False），而优化器仍持有其历史梯度状态，可能导致内存浪费甚至更新错误。

问题根源分析

优化器（如Adam）会为每个可优化参数维护动量和方差缓冲区。当某些层被冻结时，其参数虽不参与梯度计算，但若未重新构建优化器，原有状态仍驻留内存，并可能在后续迭代中被误用。

解决方案与实践建议

在冻结参数后重新实例化优化器，确保仅跟踪活跃参数
使用参数组过滤，动态排除不需要优化的参数

optimizer = torch.optim.Adam(
    [p for p in model.parameters() if p.requires_grad]
)

上述代码通过列表推导式筛选出需要梯度更新的参数，避免无效状态存储，从根本上规避优化器行为异常。

4.3 梯度未切断的隐蔽Bug排查：从现象到本质

在深度学习训练中，模型突然出现梯度爆炸或内存溢出，往往源于梯度未正确切断。这类问题通常不易察觉，却严重影响训练稳定性。

典型现象分析

训练过程中 loss 剧烈震荡，GPU 显存持续增长，甚至触发 OOM 错误。通过打印参数梯度，可初步定位异常来源。

代码示例与修正


# 错误写法：未切断历史梯度
loss = (model(x) - target) ** 2
loss.backward()  # 累积了不必要的计算图

上述代码在循环中累积计算图，导致内存泄漏。关键在于未使用 .detach() 或 with torch.no_grad(): 切断梯度。

正确实践

在评估或中间计算时使用 .detach()
涉及历史输出的操作显式切断梯度流
利用 torch.no_grad() 上下文管理器

4.4 动态冻结策略设计：训练过程中按需解冻的工程实现

在大规模模型训练中，参数冻结策略直接影响收敛效率与资源消耗。动态冻结通过在训练过程中按需解冻特定层，实现计算资源的高效利用。

策略触发机制

采用梯度幅值与损失变化率联合判断是否解冻：

当某层梯度L2范数连续3个step低于阈值γ，则保持冻结
若验证损失下降停滞超过N个epoch，触发全局解冻评估

代码实现示例


def should_unfreeze(layer, grad_history, loss_trend, threshold=1e-5):
    # 基于历史梯度判断是否静默
    if np.mean(grad_history[-5:]) > threshold:
        return True
    # 损失平台期强制解冻
    if loss_trend[-3] - loss_trend[-1] < 1e-6:
        return True
    return False

该函数每10个训练step调用一次，决定是否将指定层从 requires_grad=False切换为True。

调度流程图

初始化时冻结底层 → 训练监控梯度/损失 → 触发条件满足 → 解冻相邻高层 → 继续训练

第五章：总结与进阶方向展望

性能优化的实际路径

在高并发系统中，数据库查询往往是瓶颈所在。通过引入缓存层 Redis 并结合本地缓存（如 Go 的 sync.Map），可显著降低响应延迟。以下是一个典型的双层缓存读取逻辑：


func GetData(key string) (string, error) {
    // 先查本地缓存
    if val, ok := localCache.Load(key); ok {
        return val.(string), nil
    }
    
    // 本地未命中，查 Redis
    val, err := redisClient.Get(context.Background(), key).Result()
    if err != nil {
        return "", err
    }
    
    // 回填本地缓存，设置较短 TTL
    localCache.Store(key, val)
    return val, nil
}