具体错误:
one of the variables needed for gradient computation has been modified by an inplace operation: [CUDAComplexFloatType [32, 2, 64]], which is output 0 of struct torch::autograd::CopySlices, is at version 4; expected version 2 instead. Hint: enable anomaly detection to find the operation that failed to compute its gradient, with torch.autograd.set_detect_anomaly(True).
导致错误的原因:使用了 inplace operation
报错的意思是:梯度计算所需的一个变量已被就地操作(inplace operation)修改,导致无法计算梯度。
inplace operation 是指直接对tensor的内容进行修改,而没有使用复制的副本。利用inplace计算可以节省内存/显存,同时还可以省去反复申请和释放内存的时间,但是会对原变量覆盖。
修改方法:
为了解决这个问题,建议使用相应的非原地操作替代这些操作。
常见的 inplace operation
1、 x+=y,x*=y 是 inplace operation ,可以改为 x=x+y 和 x=x*y
2、nn.ReLU(inplace=True) 是 inplace operation,但 nn.ReLU 默认 inplace=False,所以使用 nn.ReLU() 即可。
等等。。。。。
例如,可以使用torch.cat()
的非原地版本torch.cat()
,使用torch.fft.ifft()
的非原地版本torch.fft.ifft()
,并使用适当的非原地操作替代add_cp()
和rm_cp()
函数。
这样做将确保在进行反向传播时梯度计算所需的变量不会被原地操作修改,从而避免出现类似的错误。