pytorch损失函数之nn.BCELoss()（为什么用交叉熵作为损失函数）

最新推荐文章于 2025-10-17 16:02:29 发布

原创最新推荐文章于 2025-10-17 16:02:29 发布 · 6.7w 阅读

·

26

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#pytorch #nn.BCELoss() #交叉熵

深度学习同时被 3 个专栏收录

23 篇文章

订阅专栏

21 篇文章

订阅专栏

14 篇文章

订阅专栏

本文详细解析了交叉熵损失函数在深度学习中的应用，包括二分类与多分类问题的处理方式，以及如何避免梯度消失问题。同时介绍了PyTorch中实现交叉熵损失的函数。

部署运行你感兴趣的模型镜像

关于熵、KL散度、交叉熵的讲解在这一篇文章中

一个二项分布，随机变量只有两种可能值，所以是一个二分类。二分类的交叉熵形式： $-ylog\hat{y}-(1-y)log(1-\hat{y})(1)$ 其中 $\hat{y}$ 是输出值在0-1之间。对于批量样本 ${(x_1,y_1),(x_2,y_2)...}$ 则可以对交叉熵求和或者求均值： $\sum_{i}-y_ilog\hat{y_i}-(1-y_i)log(1-\hat{y_i})(2)$ ，注意公式（1）是两个交叉熵和的形式，因为随即变量有两个可能的值，一个概率为 $\hat{y}$ ，一个概率为 $1-\hat{y}$ 。（这里我们将标签值y视作先验分布， $\hat{y}$ 为模型分布）

pytorch中 class torch.nn.BCELoss(weight=None, size_average=None, reduce=None, reduction=‘elementwise_mean’) 表示求一个二分类的交叉熵。它的loss如下：

$l(x,y)=L=\{l_1,l_2,...,l_n\},其中l_n=-w_n[y_nlog\hat{y_n}+(1-y_n)log(1-\hat{y_n})]$ ，这里n表示批量大小。 $w_n$ 表示权重。

当参数reduce设置为 True，且参数size_average设置为True时，表示对交叉熵求均值，当size_average设置为Flase时，表示对交叉熵求和。参数weight设置的是 $w_n$ ，其是一个tensor且size与批量数一样(不设置时可能都为1)。目标值 $y$ 的范围是0-1之间。输入输出的维度都是 $（ N ， * ）$ ，N是批量数，*表示目标值维度。

为什么是用交叉熵作为损失函数？

在深度学习中我们常用的损失函数是二次函数 $L=\frac{(y-\hat{y})^2}{2} (3)$ ,若激活函数使用的是sigmoid函数，则 $\hat{y}=\sigma(z)$ ，其中 $z = w x + b$ 。采用链式法则求导，则有：

$\frac{\partial L}{\partial w}=(\hat{y}-y){\sigma(z)}'x$ $\frac{\partial L}{\partial b}=(\hat{y}-y){\sigma(z)}'$

可以看出梯度都与sigmoid函数的梯度有关，如下图所示，sigmoid函数在两

在这里插入图片描述

端的梯度均接近0，这导致反向传播的梯度也很小，这就这就不利于网络训练，这就是梯度消失问题。

再来看看以交叉熵作为损失函数.对 $\frac{1}{n}\sum_{i}-y_ilog\hat{y_i}-(1-y_i)log(1-\hat{y_i})(2)$ 求导，可得： $\frac{\partial L}{\partial w}=-\frac{1}{n}\sum_i(\frac{y}{\sigma(z)}-\frac{1-y}{1-\sigma(z)})\frac{\partial \sigma}{\partial w}=-\frac{1}{n}\sum_i(\frac{y}{\sigma(z)}-\frac{1-y}{1-\sigma(z)}) {\sigma}'x$ 由于 $\sigma(z)=1/(1+e^{-z})$ 所以最终得到： $\frac{\partial L}{\partial w}=\frac{1}{n}\sum_i x(\sigma(z)-y)$ 而对偏置的导数也等于 $\frac{\partial L}{\partial b}=\frac{1}{n}\sum_i (\sigma(z)-y)$ 可以看见使用交叉熵作为损失函数后，反向传播的梯度不在于sigmoid函数的导数有关了。这就从一定程度上避免了梯度消失。

若是遇到多分类问题怎么使用交交叉熵呢？

比如我们有3个类别，那么我们通过softmax得到 $\hat{y}=[0.2,0.5,0.3]$ 的到的一个一个样本的分类结果，这个结果的通俗解释就是：为第一类的概率为0.2，为第二类的概率为0.5,为第三类的结果过0.3。

假设这个样本真实类别为第二类，那么我们希望模型输出的结果过应该是 $y = [0, 1, 0]$ ，这个就是标签值。那么损失函数可以使用交叉熵：

$L=-\sum_k^3y_klog(\hat{y})$ ，可以看见实际上这个求和只有一项。也就是 $L = - l o g (0.5)$ 。
pytorch中提供了多分类使用的损失函数nn.CrossEntropyLoss()使用的原理，与这里类似。

Neural Network and Deep Learning ，Michael Nielsen（中文）
pytorch官方文档
http://www.cnblogs.com/pinard/p/6437495.html

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

评论 11

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。