交叉熵损失函数

最新推荐文章于 2025-10-12 01:06:21 发布

原创最新推荐文章于 2025-10-12 01:06:21 发布 · 1.4k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #pytorch #python

前言

交叉熵损失函数是一种在分类问题中常用的损失函数，它衡量的是模型输出的概率分布与真实标签的概率分布之间的差异。在初学时，仅仅通过调包实现交叉熵损失的计算，对其背后的概念和计算原理认识比较模糊。而各种”熵“的概念在深度学习算法中有非常广泛的用途。这里参考了一些教程，重新梳理一遍交叉熵这个概念，并提供了实现代码。

一、熵是什么？

熵的概念来源于信息论，用来衡量信息量的大小。信息量与事件发生的概率有关，概率越小的事情发生，信息量越大。假设 $X$ 是一个离散型随机变量，其取值集合为 $\chi$ ，概率分布函数 $p(x)=Pr(X=x),x\in\chi$ ，则定义事件 $X=x_0$ 的信息量为：
$I(x_0)=-log(p(x_0))$
熵是用来表示所有信息量的期望，即：
$H(X)=-\sum_{i=1}^n p(x_i)log(p(x_i))$

二、交叉熵

交叉熵用 $H (P, Q)$ 来表示，用于衡量两个概率分布之间的差异。具体来说，假设有两个概率分布 $P$ 和 $Q$ ，交叉熵定义为：
$H(P,Q)=-\sum P(x)log Q(x)$
其中， $P (x)$ 是真实分布， $Q (x)$ 是预测分布。
在机器学习中，交叉熵用于衡量模型预测值与真实值之间的差异。以二分类问题为例，交叉熵损失函数为：
$L = - y l o g p - (1 - y) l o g (1 - p)$
其中， $y$ 为真实标签， $p$ 为模型预测的概率。
对于多分类问题，交叉熵损失函数表示为：
$L=-\sum y_i log p_i$
其中， $y_i$ 是真实标签的one-hot编码， $p_i$ 是模型预测的概率。关于交叉熵损失在实际多分类问题中的应用，可以看下面这个链接2.5节：交叉熵损失