Python记录 tensor求梯度时为None的错误

最新推荐文章于 2023-11-13 15:14:34 发布

鲤鱼江

最新推荐文章于 2023-11-13 15:14:34 发布

阅读量1.1k

点赞数

文章标签： python 深度学习人工智能

本文链接：https://blog.youkuaiyun.com/weixin_47681965/article/details/125800343

版权

这篇博客讲述了在使用CUDA进行深度学习训练时遇到的梯度为None的问题。作者在计算对抗样本的过程中，发现对tensor求梯度得到的结果是None。问题出在将tensor转移至GPU之后，`requires_grad`属性被设置为了False。解决方案是确保在tensor转移到GPU之后再次设置`requires_grad=True`。这个小细节对于正确计算梯度至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天学习对抗样本，需要对tensor求梯度，

x1, x2, label = data
x1.requires_grad = True
x2.requires_grad = True
if use_gpu:
    x1 = x1.cuda()
    x2 = x2.cuda()
    label = label.cuda()
output1, output2 = net(x1, x2)
# 计算损失
loss = criterion(output1, output2, label)
# 将所有现有的渐变归零
net.zero_grad()
loss.backward()
# 收集grad
x1_grad = x1.grad
x2_grad = x2.grad

求得梯度为None
发现是requires_grad位置不对，应该是tensor放入cuda后，requires_grad 默认改成False

if use_gpu:
    x1 = x1.cuda()
    x2 = x2.cuda()
    label = label.cuda()
x1.requires_grad = True
x2.requires_grad = True

解决

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

鲤鱼江

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【pytorch】tensor的复制避坑；tensor.clone() & tensor.detach() 详解

学渣的博客

12-07

2万+

目录1 tensor.clone()2 tensor.detach() 问题来源： a = torch.zeros(2, 3) for i in range(2): for j in range(3): b = a.data b[i, j] = 1 print("b:", b) print("a:", a) 我原以为 b = a.data 就是开辟一个新空间给 b变量，然后修改 b 的值时 a 的值不会因此变化，谁知道即使用了.dat

从零实现深度学习框架——实现Tensor的反向传播

日积月累，天道酬勤

12-22

2025

在常见运算的计算图中，我们了解了加减乘除等运算的计算图。本文通过代码实现加法和乘法的计算图来了解我们的`Tensor`自动反向传播计算梯度的模式。

1 条评论您还未登录，请先登录后发表或查看评论

网络梯度为None、参数不更新解决思路（又名“魔改代码的报应”）

weixin_43978293的博客

03-03

4464

网络梯度为None、参数不更新的解决思路

pytorch BUG :.grad=NONE？ pytorch参数的使用

ResumeProject的博客

08-31

4418

在实验中，输出发现网络的某个新增的参数不更新。在输出 tensor.grad=NONE。然后查找资料进行修改输出从原因：对需要求梯度的张量做了一次to(device)导致叶节点发生变化。

Pytorch的梯度为None！

最新发布

10-02

在Python中，我们可以利用各种机器学习库如TensorFlow、PyTorch或NumPy来计算函数的梯度。这里我将通过简单的例子展示如何使用这两个库来求解梯度。 **1. TensorFlow**: ```python import tensorflow as tf # 定义...

pytorch | loss不收敛或者训练中梯度grad为None的问题

Rilkean Heart

04-04

9248

关于使用pytorch时loss不收敛或者grad为None的问题，以及笔者常用的demo

Pytorch损失反向传播后参数梯度为None

weixin_43751558的博客

04-08

5037

错误代码：反向传播后输出factor参数的grad为None factor = torch.ones(num, requires_grad=True) self.factor = torch.nn.Parameter(factor).cuda() 错误原因：self.factor经过一次.cuda()操作后就不再是叶子结点了。修改后代码： factor = torch.ones(num, requires_grad=True) self.factor = torch.nn.Param

optimizer.compute_gradients计算时梯度是none

ab0902cd的博客

03-10

1806

在设计网络时会遇到，计算梯度时某些variable的gradient是None的情况，这种bug第一次遇到会比较头疼，如果没有踩过这其中的坑还真不知道如何解决，下面总结一下解决办法： 1. model存在多余的op，也就是没有被使用的op 这种情况下，调用optimizer.compute_gradients（）会报错，需要去除这些没有使用的op 这里也有提到：ht...

Pytorch反向传播梯度始终为None

fengyu7789的博客

03-01

4821

原因可能在将需要求梯度的tensor放置在cuda上时出错，如 import torch device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') x = torch.rand(10, 3).to(device) w = torch.rand(3, 1, requires_grad=True).to(device) t = (x @ w).sum() t.backward() print(w.grad) # retur

神经网络参数梯度为None

weixin_43399955的博客

07-22

5756

网络梯度为None

tf2梯度计算为None的情况

weixin_47182486的博客

08-26

1438

今天搭建用tf2搭建WGAN网络，自己来写梯度函数，在使用tf.GradientTape()来求梯度时，发现求出结果为None。一般来说结果为None，表示输入变量之间没有构成可求导的关系，同时也需要理解tf.GradientTape()求导的原理，是根据输入的target和source构建好的图进行求导，其中的变量可以视为节点，如果节点间没有连接，求导便会停止，返回None。我检查代码后发现，在用CNN搭建判别器的时候，有这么一行代码： for input in inputs.numpy(): ..

param.grad、requires_grad、grad_fn、grad/梯度为None？

Drug discovery

07-29

5487

计算图中的节点分为叶子节点和非叶子节点，叶子节点可以理解成不依赖其他tensor的tensor（例如b = a+1，那么b就是叶子节点），在使用backward()函数进行反向传播计算tensor的梯度时，并不是计算所有的tensor的梯度，而是计算满足这几个条件的tensor的梯度，子节点张量而是中间节点(中间节点张量). 如果该张量的属性requires_grad=True,叶子节点张量的属性grad中,不会在中间节点张量的属性grad中保存这个张量的梯度,这是。

torch参数梯度为None的问题

m0_62258399的博客

11-13

682

我实现的VAE++网络中，这两个线性层权重偏移会在最后一层MLP中进行一次聚合，除此之外就没有其他地方有用到了，所以把视线放在了最后一层mlp上。经过一段时间的思考，觉得应该是梯度传播的问题。把训练后叶子节点的梯度打印出来，果然有两个线性层是没有梯度的。就像省流说的一样，detach经过计算之后，不会将梯度传回到原变量上，也就是被block掉了。前一项的KL散度所用到的权重梯度其实是传递到位了的，所以问题应该就出现在后一项。后来把代码修改一下，用clone就可以啦。修改代码之后问题就解决了ouo。

pytoch 设置了requires_grad=True，但是计算梯度(grad)为none

yinizhilianlove的博客

01-18

1万+

来源：AINLPer微信公众号（点击了解一下吧）编辑: ShuYini 校稿: ShuYini 时间: 2019-8-16 代码示例 x_in=torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).view((1,1,3,3)).type(torch.FloatTensor) y_out=torch.tensor([[19, 25],[37, 43]...