Cross-Entropy(交叉熵)概念解释

Cross-Entropy(交叉熵)简要解析

Cross-Entropy(交叉熵)是信息论与机器学习领域的核心概念,本质是衡量“两个概率分布之间差异”的指标,核心作用是量化“模型预测结果”与“真实情况”的偏差,常作为分类任务的损失函数(Loss Function)。

1. 核心定义(从概率分布出发)

假设有两个概率分布:

  • 真实分布 ( p ):代表事物的客观真实情况(如分类任务中,“这张图是猫”的真实概率为1,是狗/鸟的概率为0)。
  • 预测分布 ( q ):代表模型对事物的预测结果(如模型预测“这张图是猫”的概率为0.8,是狗的概率为0.15,是鸟的概率为0.05)。

交叉熵的公式(离散情况)为:
[ H(p,q)=−∑ip(i)⋅log⁡(q(i))H(p, q) = -\sum_{i} p(i) \cdot \log(q(i))H(p,q)=ip(i)log(q(i)) ]

  • ( i ):所有可能的类别(如分类任务中的“猫/狗/鸟”);
  • ( log⁡\loglog ):通常取自然对数(( ln⁡\lnln ))或以2为底的对数(( log⁡2\log_2log2 )),不影响“差异大小”的相对判断;
  • 负号:确保结果为非负值(因对数函数在(0,1)区间值为负,乘以负号后交叉熵 ≥ 0)。

2. 核心意义:“差异越小,交叉熵越小”

交叉熵的数值直接反映两个分布的匹配度:

  • 预测分布 ( q ) 完全等于真实分布 ( p ) 时(如模型完美预测“猫”的概率为1),( H(p,q) = 0 ),代表“无偏差”;
  • 预测分布与真实分布偏差越大 时(如模型误判“猫”的概率为0.1,误判“狗”为0.9),( H(p,q) ) 数值会显著增大,代表“偏差大”。

这一特性使其成为理想的损失函数:训练模型时,通过最小化交叉熵,可让模型的预测分布不断逼近真实分布。

3. 机器学习中的典型应用:分类任务

在逻辑回归(二分类)、softmax回归(多分类)等任务中,交叉熵是最常用的损失函数,原因是它能直接对齐“概率预测”与“真实标签”:

  • 二分类场景:真实标签为 ( y \in {0,1} )(如“是猫=1,不是猫=0”),交叉熵简化为:
    ( H(y,y^)=−[y⋅log⁡(y^)+(1−y)⋅log⁡(1−y^)]H(y, \hat{y}) = -[y \cdot \log(\hat{y}) + (1-y) \cdot \log(1-\hat{y})]H(y,y^)=[ylog(y^)+(1y)log(1y^)] )
    (( y^\hat{y}y^ ) 是模型预测“为1类”的概率)。
  • 多分类场景:真实标签用“独热编码”表示(如“猫= [1,0,0],狗=[0,1,0]”),代入原始交叉熵公式,仅保留真实类别对应的预测项(非真实类别 ( p(i)=0 ),乘积项为0),计算更高效。

一句话总结

交叉熵是“用模型预测的概率分布,去‘猜’真实概率分布”时的“平均不确定性”——不确定性越小(预测越准),交叉熵越小;反之则越大,因此可作为损失函数引导模型优化。

### 交叉熵损失概述 #### 概念 交叉熵损失是一种衡量模型预测概率分布与真实标签之间差异的方法。对于正确的类别,当模型的预测概率越接近1时,损失越小;如果预测概率接近0,则损失会变得非常大。相反,对于错误的类别,当模型的预测概率越接近0时,损失越小;而较大的预测概率则会使损失增加[^1]。 #### 公式 在二分类问题中,交叉熵损失可表示为: \[ L(y, \hat{y}) = -\left[y \cdot \log(\hat{y}) + (1-y)\cdot\log(1-\hat{y})\right] \] 其中 \( y \in {0, 1} \) 是真实的标签,\( \hat{y} \in [0, 1] \) 表示模型预测的概率值。此公式适用于神经网络输出层采用sigmoid激活函数的情况[^2]。 而在多分类情况下,假设共有C类,则交叉熵损失定义如下: \[ L(Y,\hat{Y})=-\sum_{i=1}^{C}{Y_i}\log{\hat{Y}_i} \] 这里 \( Y=[Y_1,Y_2,...,Y_C]^T \) 和 \( \hat{Y}=[\hat{Y}_1,\hat{Y}_2,...,\hat{Y}_C]^T \) 分别代表实际标签向量和预测概率向量,且满足 \(\sum_{i=1}^CY_i=\sum_{i=1}^C\hat{Y}_i=1\) 。此时通常配合Softmax作为最后一层激活函数来计算最终输出[^3]。 #### 应用场景 该方法常被应用于各种类型的监督学习任务中的分类器训练过程里,尤其是在涉及大量数据集以及复杂特征空间的任务上表现优异。具体来说,在图像识别、自然语言处理等领域内广泛应用着基于深度学习框架下的卷积神经网路(CNNs),循环神经网络(RNNs)等架构,并通过引入交叉熵损失来进行有效的参数调整以提高泛化能力。 ```python import torch.nn as nn criterion = nn.CrossEntropyLoss() output = model(input_data) loss = criterion(output, target_labels) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值