pytorch中张量对张量的梯度求解:backward方法的gradient参数详解

最新推荐文章于 2025-11-08 20:16:17 发布

原创

最新推荐文章于 2025-11-08 20:16:17 发布 · 2.4k 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #pytorch

本文探讨了在PyTorch中使用Tensor的backward方法进行非标量反向传播时，gradient参数的设置原理。通过分析书中的例子和博客内容，发现gradient参数可以根据需求设置，用于求解不同分量对输入的导数。文中通过对比不同的代码实现，解释了gradient乘以雅可比矩阵（Jacobian）来获取偏导数的过程，并强调了保持向量形状一致的重要性。

一、问题起源：
阅读《python深度学习：基于pytorch》这本书的tensor 与Autograd一节时，看到2.5.4非标量反向传播

二、疑点在于：

backward(gradient=)这一参数没有理由的就选择了(1,1)，之后调整为(1,0)和(0,1)便能正确求解，对该参数的设置原理，反向梯度求解的过程没有说清楚。

三、分析过程：

看完博客https://www.cnblogs.com/zhouyang209117/p/11023160.html

便确认gradient这一参数的设置应该是根据使用者的需求，比如说设置为(1,0)就正好求得y1对x的导数。

但是两者的求解过程不一致，书中=J的转置*V的转置，但是博客中假设的是V*J ，其实解释的原理都是一样的，就是希望设置V来分别在y的不同分量上求得对x的导数，然后组合向量，获得最终y对于x的导数。

虽然求解过程，但各偏导值是一致的。

书中x.grad = [[6,9]],但是博客中只有x1,x2,x3的梯度值，即便将代码改为对x求导，结果x.grad=None

x = torch.tensor([1,2,3],requires_grad=True, dtype=torch.float)

y.backward(torch.tensor([1, 1, 1], dtype=torch.float))

print(x.grad) # None 因为y赋值的时候是通过x1,x2,x3标量赋值的，与x无关。

如果改成以下代码：

y[0] = x[0]*x[1]*x[2]

y[1] = x[0]+x[1]+x[2]</

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。