Pytorch求导

最新推荐文章于 2025-06-07 15:12:57 发布

原创

最新推荐文章于 2025-06-07 15:12:57 发布 · 3.3k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#Pytorch

本文介绍了在PyTorch中如何进行标量对矩阵和矩阵对矩阵的求导操作，并强调了requires_grad为True的变量需为float类型，且进行反向传播时须确保结果是标量或通过torch.ones_like转换成标量。内容参考了多个机器学习和矩阵求导的资源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.标量对矩阵求导

在这里插入图片描述

验证：

>>>import torch
>>>a = torch.tensor([[1],[2],[3.],[4]])    # 4*1列向量
>>>X = torch.tensor([[1,2,3],[5,6,7],[8,9,10],[5,4,3.]],requires_grad=True)  #4*3矩阵，注意，值必须要是float类型
>>>b = torch.tensor([[2],[3],[4.]]) #3*1列向量
>>>f = a.view(1,-1).mm(X).mm(b)  # f = a^T.dot(X).dot(b)
>>>f.backward()
>>>X.grad   #df/dX = a.dot(b^T)
tensor([[ 2.,  3.,  4.],
    [ 4.,  6.,  8.],
    [ 6.,  9., 12.],
    [ 8., 12., 16.]])
>>>a.grad b.grad   # a和b的requires_grad都为默认(默认为False)，所以求导时，没有梯度
(None, None)
>>>a.mm(b.view(1,-1))  # a.dot(b^T)
    tensor([[ 2.,  3.,  4.],
    [ 4.,  6.,  8.],
    [ 6.,  9., 12.],
    [ 8., 12., 16.]])