Cross-Entropy（交叉熵）概念解释

原创于 2025-10-23 10:51:45 发布 · 811 阅读

CC 4.0 BY-SA版权

文章标签：

Cross-Entropy（交叉熵）简要解析

Cross-Entropy（交叉熵）是信息论与机器学习领域的核心概念，本质是衡量“两个概率分布之间差异”的指标，核心作用是量化“模型预测结果”与“真实情况”的偏差，常作为分类任务的损失函数（Loss Function）。

假设有两个概率分布：

交叉熵的公式（离散情况）为：
[ $-\sum_{i} p(i) \cdot \log(q(i))$ ]

交叉熵的数值直接反映两个分布的匹配度：

这一特性使其成为理想的损失函数：训练模型时，通过最小化交叉熵，可让模型的预测分布不断逼近真实分布。

在逻辑回归（二分类）、softmax回归（多分类）等任务中，交叉熵是最常用的损失函数，原因是它能直接对齐“概率预测”与“真实标签”：

二分类场景：真实标签为 ( y \in {0,1} )（如“是猫=1，不是猫=0”），交叉熵简化为：
( $H(y,y^)=−[y⋅log⁡(y^)+(1−y)⋅log⁡(1−y^)]H(y, \hat{y}) = -[y \cdot \log(\hat{y}) + (1-y) \cdot \log(1-\hat{y})]$ )
（( $y^\hat{y}$ ) 是模型预测“为1类”的概率）。
多分类场景：真实标签用“独热编码”表示（如“猫= [1,0,0]，狗=[0,1,0]”），代入原始交叉熵公式，仅保留真实类别对应的预测项（非真实类别 ( p(i)=0 )，乘积项为0），计算更高效。