pytorch中torch.Module().eval()有何用处?是否设置之后可以保证模型参数不被更新?

最新推荐文章于 2025-11-02 09:59:52 发布

原创

最新推荐文章于 2025-11-02 09:59:52 发布 · 4.5k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #python

博客探讨了PyTorch中Module.eval()方法的作用，实验证明该方法并不直接阻止模型参数更新，而只是设置训练标志位。即使在eval模式下，模型参数仍会因optimizer.step()而改变。正确的冻结参数方法是设置requires_grad=False。测试用例验证了这一结论，并强调在测试时使用torch.no_grad()以避免生成梯度。

关于pytorch Module类eval方法

最近看一篇论文的源码, 作者为了将某几层bn层冻结, 居然对每个bn层调用了 bn层的eval()方法. 我有所怀疑是否有效, 查看了pytorch对应的源码, 并做了测试, 确定这样做没什么卵用.

只是一个标志位

model.eval()只是设置一个标志位, 同理model.train()也是一样. 查看Module类源码, eval()方法只做了一件事情, 调用self.train(False).

    def eval(self: T) -> T:
        r""" ...
        """
        return self.train(False)

self.train(False)也只做了一件事情, 将自身标志位training置为False, 再递归的将所有子模块的标志位也置为False.

   def train(self: T, mode: bool = True) -> T:
        r""" ...
        """
        self.training = mode
        for module in self.children():
            module.train(mode)
        return self

实测效果

以防万一, 具体测试下看看模型的参数是否会被更新. 设计了四个测试用例:

model.train()模式, 预期结果: 模型的参数被更新, model.layer1的权重更新前后之差, 取绝对值再求和不为0
model.eval()模式, 预期结果: 模型的参数被更新, model.layer1的权重更新前后之差, 取绝对值再求和不为0
任意模式, 将model.layer1设置为不需要梯度. 预期结果: 模型的参数被不变, model.layer1的权重更新前后之差, 取绝对值再求和等于0.

最低0.47元/天解锁文章

12 条评论

mx_windforce 2021.08.02
谢谢博主的辛苦测试~ 不过，参考了知乎的文章，觉得博主的初始问题，即原文章作者的做法好像是可行的。即，self.train是FALSE的情况下，BN层会进行梯度计算，但不进行梯度回传。博主的例子中是两个全连接层，不存在BN，所以参数仍然会改变。 self.train仅仅影响BN层和dropout，不影响其他类型的层。参考： https://zhuanlan.zhihu.com/p/357075502
- zzy_ucas回复mx_windforce 2021.11.23
  “BN层会进行梯度计算，但不进行梯度回传”不回传，怎么求导，怎么梯度计算呢？我的理解“梯度回传，求导，计算梯度，但是不更新模型参数，是这样吧？”