条件熵

最新推荐文章于 2024-07-24 17:03:56 发布

重生之年

最新推荐文章于 2024-07-24 17:03:56 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习人工智能条件熵

本文链接：https://blog.youkuaiyun.com/wjj5881005/article/details/52397654

机器学习专栏收录该内容

13 篇文章

订阅专栏

本文介绍了信息熵的概念及其在衡量不确定性中的应用，并详细解释了条件熵的含义及计算方式，帮助读者理解如何评估特定条件下信息的不确定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

信息熵的概念是由香农在信息论中提出的，目的是为了度量事件的不确定性。这是一个开创性的工作，把看不见摸不着的“不确定性”竟然量化了，这实在是太伟大了。现在，熵的概念已经应用到了各行各业，包括机器学习，人工智能。例如最大熵模型（maximum entropy model）的核心就是熵值的概念。
我们首先具体的通过符号定义一下熵的概念（以离散随机变量介绍）。假设离散随机变量 $X$ 的概率分布是 $P(X)$ ，则其熵是：

H (P) = - \sum x P (x) l o g P (x) (1)

$\begin{equation} H(P) = -\sum_{x} P(x)logP(x) \qquad (1) \end{equation}$ 熵满足下面的不等式

0 \leq H (P) \leq l o g | X | (2)

$\begin{equation} 0 \leq H(P) \leq log|X| \qquad (2) \end{equation}$ 右边等式成立的条件是当

X $X$ 服从均匀分布。均匀分布代表了随便变量X的不确定性最大，因为此时对X几乎等于一无所知。

此时我们接着介绍条件熵。假设上面的 $X$ 代表学生的身高（这里我们将身高离散化），用 $Y$ 表示学生的体重（同样对体重离散化）。那么条件熵就表示为

H (Y | X) = - \sum x, y P ˜ (x) P (y | x) l o g P (y | x) (3)

$\begin{equation} H(Y|X) = -\sum_{x,y} \widetilde{P}(x) P(y|x) logP(y|x) \qquad (3) \end{equation}$
具体怎么理解呢？假设我们先只考虑身高为1.62到1.64的学生，这一部分学生中体重的不确定可以计算为：

H (y | x i) = - \sum y P (y | x i) l o g P (y | x i) (4)

$\begin{equation} H(y|x_{i}) = -\sum_{y} P(y|x_{i}) logP(y|x_{i}) \qquad (4) \end{equation}$
那么整个数据集的不确定性（也就是熵）就是各个分段身高对应的学生群体的不确定性之和。但是这里还要注意一个问题，身高的分布并不是均匀的，例如上面身高1.62到1.64的学生可能非常多，且这部分学生的体重不确定性最大，如果均匀对待这部分身高的学生，那么总体的不确定计算出来的就会偏小。因此我们还要考虑身高的分布，即

P˜(x) $\widetilde{P}(x)$ ，也就是考虑加权和，这样就得到了公式(3)。