Pytorch报错：grad can be implicitly created only for scalar outputs

原创

已于 2024-03-10 02:17:57 修改 · 1.8k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #人工智能 #python

于 2024-03-09 23:07:19 首次发布

本文解释了如何在PyTorch中使用向量-雅可比乘积(VJP)处理非标量输出的梯度计算，特别是在深度学习的反向传播过程中。它展示了如何通过选择特定的向量v来控制不同输出对梯度的影响，以及向量-雅可比乘积在多任务学习和计算效率中的作用。

x=torch.randn(3,requires_grad=True)
y=x+2 # will create a computational graph
print(y)

z=y*y*2
print(z)
z.backward() #dz/dx
print(x.grad)

tensor([2.0864, 1.2528, 1.2987], grad_fn=<AddBackward0>)
tensor([8.7058, 3.1389, 3.3733], grad_fn=<MulBackward0>)
---------------------------------------------------------------------------
RuntimeError                              Traceback (most recent call last)
<ipython-input-6-3ff5c6c8f8ea> in <cell line: 8>()
      6 print(z)

----> 8 z.backward() #dz/dx
      9 print(x.grad)

2 frames
/usr/local/lib/python3.10/dist-packages/torch/autograd/__init__.py in _make_grads(outputs, grads, is_grads_batched)
    115             if out.requires_grad:
    116                 if out.numel() != 1:
--> 117                     raise RuntimeError(
    118                         "grad can be implicitly created only for scalar outputs"
    119                     )

RuntimeError: grad can be implicitly created only for scalar outputs

创建一个v，作为链式法则中的Jacobine矩阵

x=torch.randn(3,requires_grad=True)
y=x+2 # will create a computational graph
print(y)

z=y*y*2
print(z)
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float32)
z.backward(v) #dz/dx
print(x.grad)

当执行y.backward(v)时，实际上进行的操作是计算向量y相对于其输入张量x的向量-雅可比乘积（vector-Jacobian product, VJP）。这个过程可以更清晰地理解backward方法的工作原理以及v的作用。假设我们有向量函数 $y=f(x)\mathbf{y} = f(\mathbf{x})$ ，其中 $x\mathbf{x}$ 和 $y\mathbf{y}$ 都是向量， $x∈Rn\mathbf{x} \in \mathbb{R}^n$ ， $y∈Rm\mathbf{y} \in \mathbb{R}^m$ 。雅可比矩阵 $J\mathbf{J}$ 是 $f$ 相对于 $x\mathbf{x}$ 的导数的矩阵表示，其中每个元素 $Jij=∂yi∂xjJ_{ij} = \frac{\partial y_i}{\partial x_j}$ 。

向量-雅可比乘积

当对y.backward(v)进行操作，其中 $v∈Rm\mathbf{v} \in \mathbb{R}^m$ ，实际上计算的是 $v⊤J\mathbf{v}^\top \mathbf{J}$ 。这个操作的结果是一个长度为 $n$ 的向量，与 $x\mathbf{x}$ 的维度相同。具体地说，如果 $y\mathbf{y}$ 由函数 $f(x)f(\mathbf{x})$ 得到，那么对于给定的向量 $v\mathbf{v}$ ，向量-雅可比乘积 $v⊤J\mathbf{v}^\top$