Cross-Entropy(交叉熵)简要解析
Cross-Entropy(交叉熵)是信息论与机器学习领域的核心概念,本质是衡量“两个概率分布之间差异”的指标,核心作用是量化“模型预测结果”与“真实情况”的偏差,常作为分类任务的损失函数(Loss Function)。
1. 核心定义(从概率分布出发)
假设有两个概率分布:
- 真实分布 ( p ):代表事物的客观真实情况(如分类任务中,“这张图是猫”的真实概率为1,是狗/鸟的概率为0)。
- 预测分布 ( q ):代表模型对事物的预测结果(如模型预测“这张图是猫”的概率为0.8,是狗的概率为0.15,是鸟的概率为0.05)。
交叉熵的公式(离散情况)为:
[ H(p,q)=−∑ip(i)⋅log(q(i))H(p, q) = -\sum_{i} p(i) \cdot \log(q(i))H(p,q)=−∑ip(i)⋅log(q(i)) ]
- ( i ):所有可能的类别(如分类任务中的“猫/狗/鸟”);
- ( log\loglog ):通常取自然对数(( ln\lnln ))或以2为底的对数(( log2\log_2log2 )),不影响“差异大小”的相对判断;
- 负号:确保结果为非负值(因对数函数在(0,1)区间值为负,乘以负号后交叉熵 ≥ 0)。
2. 核心意义:“差异越小,交叉熵越小”
交叉熵的数值直接反映两个分布的匹配度:
- 当 预测分布 ( q ) 完全等于真实分布 ( p ) 时(如模型完美预测“猫”的概率为1),( H(p,q) = 0 ),代表“无偏差”;
- 当 预测分布与真实分布偏差越大 时(如模型误判“猫”的概率为0.1,误判“狗”为0.9),( H(p,q) ) 数值会显著增大,代表“偏差大”。
这一特性使其成为理想的损失函数:训练模型时,通过最小化交叉熵,可让模型的预测分布不断逼近真实分布。
3. 机器学习中的典型应用:分类任务
在逻辑回归(二分类)、softmax回归(多分类)等任务中,交叉熵是最常用的损失函数,原因是它能直接对齐“概率预测”与“真实标签”:
- 二分类场景:真实标签为 ( y \in {0,1} )(如“是猫=1,不是猫=0”),交叉熵简化为:
( H(y,y^)=−[y⋅log(y^)+(1−y)⋅log(1−y^)]H(y, \hat{y}) = -[y \cdot \log(\hat{y}) + (1-y) \cdot \log(1-\hat{y})]H(y,y^)=−[y⋅log(y^)+(1−y)⋅log(1−y^)] )
(( y^\hat{y}y^ ) 是模型预测“为1类”的概率)。 - 多分类场景:真实标签用“独热编码”表示(如“猫= [1,0,0],狗=[0,1,0]”),代入原始交叉熵公式,仅保留真实类别对应的预测项(非真实类别 ( p(i)=0 ),乘积项为0),计算更高效。
一句话总结
交叉熵是“用模型预测的概率分布,去‘猜’真实概率分布”时的“平均不确定性”——不确定性越小(预测越准),交叉熵越小;反之则越大,因此可作为损失函数引导模型优化。
1012

被折叠的 条评论
为什么被折叠?



