PyTorch教程（九）：损失函数与Loss的梯度

最新推荐文章于 2025-09-06 01:49:58 发布

原创最新推荐文章于 2025-09-06 01:49:58 发布 · 8.7k 阅读

11 ·

CC 4.0 BY-SA版权

机器学习同时被 2 个专栏收录

40 篇文章

订阅专栏

pytorch教程

21 篇文章

订阅专栏

本文介绍了深度学习中常用的损失函数——均方误差（MSE）及其计算，包括线性回归模型下的梯度求解。同时，探讨了MSE与L2-norm的区别，并展示了在PyTorch中如何实现MSE的计算和梯度求导。此外，还讨论了分类任务中的交叉熵损失函数，以及softmax激活函数的性质和导数计算。

部署运行你感兴趣的模型镜像

均方差Mean Squared Error（MSE）

MSE基本形式：
$\sum[y-(xw+b)]^2$
这里的模型使用非常简单的线性感知机，如果使用其他的网络，则修改为 $\sum[y-f(x;w,b)]^2$

需要注意的是，这里的均方差MSE和L2-norm是有区别的：
$l2-norm=\sqrt{\sum{(y_1-y_2)^2}}$
PyTorch在MSE中的使用：torch.norm(y-y',2).pow(2)

MSE梯度

$\sum[y-f_\theta(x)]^2 \\ \frac{\nabla loss}{\nabla \theta} = 2\sum[y-f_\theta(x)]*\frac{\nabla f_\theta(x)}{\nabla \theta}$
因此，如果使用简单的线性回归，那么 $f (x) = w x + b$ ,那么对于 $∇fθ(x)∇θ\frac{\nabla f_\theta(x)}{\nabla \theta}$ 则为(x,1)

使用torch.autograd.grad(loss,[w1,w2…])求导

返回结果是list的方式：[w1 grad, w2 grad, w3 grad .....]
这里使用最简单的线性模型 $y = w x$

x = torch.ones(1)
w = torch.full([1],2)
w = w.type_as(torch.FloatTensor()) # 将w由LongTensor转为FloatTensor,否则无法设置梯度
w.requires_grad_() # tensor([2.], requires_grad=True) 设置w的梯度 
mse = F.mse_loss(x*w ,torch.ones(1)) # tensor(1.) 这里假设label是1
torch.autograd.grad(mse,[w]) # 第一个参数是y(loss)，第二个参数是参数
# (tensor([2.]),)

$(1-1*2)^2 \\ \frac{\partial loss}{\partial w} = 2 * (1-2)*(-1)\frac{\partial loss}{\partial w} = 2$
设置w的梯度还可以通过在初始化时进行设置，w = torch.tensor([1],requires_grad=True)

使用loss.backward()求导

不会额外返回结果，而是直接附加在每个成员变量上，结果是：w1.grad，w2.grad…
除了使用torch.autograd.grad(mse,[w])方式求导外，还可以使用：

mse = F.mse_loss(x*w, torch.ones(1))
mse.backward() # 向后传播
w.grad
# tensor([2.])

mse.backward()表示向后传播，PyTorch会自动记录下图的路径，因此在最后的loss节点上调用backward时，会完成这条路径上所有的需要梯度grad的计算，这个计算后的grad不会直接返回，而是会自动把grad信息附加在每个tensor的成员变量.grad上，因为这个只有一个w参数，因此只有一个w.grad，

Cross Entropy Loss

常见的分类中的损失函数，既可以用于二分类，也可以用多分类，一般跟softmax激活函数搭配一起使用。

softmax激活函数

在这里插入图片描述
对于一个输出y，如果需要转为概率值，希望概率最大的值作为预测的label，如上图，2.0最大，其对应的索引是0，因此0就是一个label。但是我们的概率是属于一个区间，如果要把这个值转为概率值，需要人为进行压缩，可以使用sigmoid函数来完成，但是对于多分类来说，一个物体到底属于哪个类，有概率的大小之分，而这些概率之和为1。因此使用sigmoid并不是十分准确。
对于softmax的属性是：每一个值的大小范围是(0,1)，所有概率之和为1。
$S(y_i) = \frac{e^{y_i}}{\sum_je^{y_j}}$
对于上面的例子：
$\frac{e^2}{e^2+e^1+e0.1}+\frac{e^1}{e^2+e^1+e0.1}+\frac{e^{0.1}}{e^2+e^1+e0.1} = 1$
之前的标签2和1的差距只有2倍，而经过softmax操作之后，0.7和0.2的差距却放大了。因此softmax会将原来的差距拉大。

softmax导数

$p_i = \frac{e^{a_i}}{\sum_{k=1}^Ne^{a_k}} \\ \frac{\partial p_i}{\partial a_j} = \begin{cases} p_i(1-p_j) & \text {if i = j} \\ -p_j·p_i, & \text{if i}\ne j \end{cases}$
可以根据公式看出当i=j时，梯度是大于0的，其他情况下是小于0的。

计算梯度

a = torch.rand(3)
a.requires_grad_() # tensor([0.2306, 0.6693, 0.6334], requires_grad=True)

p = F.softmax(a, dim=0)
# tensor([0.2471, 0.3832, 0.3697], grad_fn=<SoftmaxBackward>)
torch.autograd.grad(p[0],[a], retain_graph=True)
# (tensor([ 0.1860, -0.0947, -0.0914]),)
torch.autograd.grad(p[1],[a], retain_graph=True)
# (tensor([-0.0947,  0.2364, -0.1417]),)
torch.autograd.grad(p[2],[a], retain_graph=True)
# (tensor([-0.0914, -0.1417,  0.2330]),)

$∂p0∂ai=[0.1860,−0.0947,−0.0914]\frac{\partial p_0}{\partial a_i}=[ 0.1860, -0.0947, -0.0914]$ ，其中 $∂p0∂a0=[0.1860]，∂p0∂a1=[−0.0947]，∂p0∂a2=[−0.0914]\frac{\partial p_0}{\partial a_0}=[ 0.1860]，\frac{\partial p_0}{\partial a_1}=[ -0.0947]，\frac{\partial p_0}{\partial a_2}=[ -0.0914]$ 可以看出当j=i时，梯度信息是正的。