最近看一篇论文的源码, 作者为了将某几层bn层冻结, 居然对每个bn层调用了 bn层的eval()方法. 我有所怀疑是否有效, 查看了pytorch对应的源码, 并做了测试, 确定这样做没什么卵用.
只是一个标志位
model.eval()只是设置一个标志位, 同理model.train()也是一样. 查看Module类源码, eval()方法只做了一件事情, 调用self.train(False).
def eval(self: T) -> T:
r""" ...
"""
return self.train(False)
self.train(False)也只做了一件事情, 将自身标志位training置为False, 再递归的将所有子模块的标志位也置为False.
def train(self: T, mode: bool = True) -> T:
r""" ...
"""
self.training = mode
for module in self.children():
module.train(mode)
return self
实测效果
以防万一, 具体测试下看看模型的参数是否会被更新. 设计了四个测试用例:
- model.train()模式, 预期结果: 模型的参数被更新, model.layer1的权重更新前后之差, 取绝对值再求和不为0
- model.eval()模式, 预期结果: 模型的参数被更新, model.layer1的权重更新前后之差, 取绝对值再求和不为0
- 任意模式, 将model.layer1设置