softmax+交叉熵损失函数的数值举例

最新推荐文章于 2024-12-14 13:45:20 发布

Thomas_Cai

最新推荐文章于 2024-12-14 13:45:20 发布

阅读量726

点赞数 11

分类专栏：深度学习工程技术机器学习文章标签：深度学习机器学习人工智能交叉熵损失函数

本文链接：https://blog.youkuaiyun.com/ThomasCai001/article/details/144381675

版权

深度学习同时被 3 个专栏收录

81 篇文章

订阅专栏

工程技术

36 篇文章

订阅专栏

机器学习

15 篇文章

订阅专栏

文章目录

一、目标为类别索引的例子
二、目标为类别概率分布的例子
三、举例说明
- 3.1 计算类别索引模式的交叉熵：
- 3.2 计算类别概率分布模式的交叉熵：

这段代码展示了两种不同的方式使用 torch.nn.functional.cross_entropy 来计算交叉熵损失，分别是目标为类别索引和目标为类别概率分布的情况。下面是对代码的逐步解释：

一、目标为类别索引的例子

# Example of target with class indices
input = torch.randn(3, 5, requires_grad=True)
target = torch.randint(5, (3,), dtype=torch.int64)
loss = F.cross_entropy(input, target)
loss.backward()

含义和执行步骤

input:

大小为 [3, 5]，表示有 3 个样本，每个样本有 5 个类别的 logits（未经过 softmax 的分数）。
它是模型输出的原始预测结果。

target:

大小为 [3]，表示每个样本的目标类别索引（整数形式）。
target[i] 的值范围是 [0, 4]，表示第 ii 个样本的正确类别。

F.cross_entropy(input, target):

这个函数会先对 input 应用 softmax 转换成概率分布，然后计算交叉熵损失。
损失公式： $\text{CrossEntropyLoss} = -\frac{1}{N} \sum_{i=1}^N \log(P[i, y_i])$ 其中：
- $P[i, y_i]$ 是第 ii 个样本的正确类别概率（由 softmax 得到）。
- $y_i$ 是第 ii 个样本的目标类别索引。

loss.backward():

计算 input 的梯度，用于后续的优化。

关键点

target 是每个样本的类别索引。
input 被视为 logits，无需手动应用 softmax。

二、目标为类别概率分布的例子

# Example of target with class probabilities
input = torch.randn(3, 5, requires_grad=True)
target = torch.randn(3, 5).softmax(dim=1)
loss = F.cross_entropy(input, target)
loss.backward()

含义和执行步骤

input:

大小仍为 [3, 5]，表示 3 个样本，每个样本有 5 个类别的 logits。

target:

大小为 [3, 5]，表示每个样本的目标是一个类别概率分布（已归一化，且每行的和为 1）。
通过 softmax(dim=1) 将随机生成的值归一化，确保其符合概率分布的要求。

F.cross_entropy(input, target):

这时，target 是概率分布，而非类别索引。
损失公式修改为： $\text{CrossEntropyLoss} = -\frac{1}{N} \sum_{i=1}^N \sum_{j=1}^C t_{i,j} \log(P[i, j])$ 其中：
- $t_{i,j}$ 是目标概率分布 $\text{target}[i, j]$ 。
- $P [i, j]$ 是模型预测的类别概率分布（由 softmax 得到）。
这表示每个类别的损失按照目标概率分布进行加权平均，而不是只针对一个目标类别。

loss.backward():

计算 input 的梯度，用于后续的优化。
关键点
target 是每个样本的类别概率分布。
F.cross_entropy 会根据 target 的分布计算加权损失，而非直接使用单个类别。

两种模式的区别

模式	目标类型	损失公式
类别索引模式	每个样本对应一个类别索引	$log(P[i, y_i])$
类别概率分布模式	每个样本对应一个概率分布	$-\sum_{j} t_{i,j} \log(P[i, j])$

三、举例说明

输入数据：

input = torch.tensor([[2.0, 1.0, 0.1],
                      [0.5, 1.5, 1.0],
                      [0.1, 0.2, 0.7]], requires_grad=True)
#目标为类别索引
target_index = torch.tensor([0, 2, 1])  
#目标为类别概率分布
target_prob = torch.tensor([[1.0, 0.0, 0.0],
                            [0.0, 0.0, 1.0],
                            [0.0, 1.0, 0.0]])

3.1 计算类别索引模式的交叉熵：

对 input 应用 softmax：

P = softmax(input, dim=1)

结果：

P = [[0.6590, 0.2424, 0.0986],
     [0.2119, 0.5761, 0.2119],
     [0.3006, 0.3322, 0.3672]]

取正确类别概率：

样本 1: P[0, 0] = 0.6590
样本 2: P[1, 2] = 0.2119
样本 3: P[2, 1] = 0.3322

计算损失：
$\text{Loss} = -\frac{1}{3} \left( \log(0.6590) + \log(0.2119) + \log(0.3322) \right)$

3.2 计算类别概率分布模式的交叉熵：

按概率分布加权：
$\text{Loss} = -\frac{1}{3} \sum_{i=1}^3 \sum_{j=1}^3 t_{i,j} \log(P[i, j])$
对于每个样本：

样本 1: t = [1.0, 0.0, 0.0] -> $-\log(0.6590)$
样本 2: t = [0.0, 0.0, 1.0] -> $-\log(0.2119)$
样本 3: t = [0.0, 1.0, 0.0] -> $-\log(0.3322)$

最终两种方式的结果一致，只是计算方法略有不同。