信息熵的概念是由香农在信息论中提出的,目的是为了度量事件的不确定性。这是一个开创性的工作,把看不见摸不着的“不确定性”竟然量化了,这实在是太伟大了。现在,熵的概念已经应用到了各行各业,包括机器学习,人工智能。例如最大熵模型(maximum entropy model)的核心就是熵值的概念。
我们首先具体的通过符号定义一下熵的概念(以离散随机变量介绍)。假设离散随机变量
X
的概率分布是
H(P)=−∑xP(x)logP(x)(1)
熵满足下面的不等式
0≤H(P)≤log|X|(2)
右边等式成立的条件是当
X
服从均匀分布。均匀分布代表了随便变量X的不确定性最大,因为此时对X几乎等于一无所知。
此时我们接着介绍条件熵。假设上面的
具体怎么理解呢?假设我们先只考虑身高为1.62到1.64的学生,这一部分学生中体重的不确定可以计算为:
H(y|xi)=−∑yP(y|xi)logP(y|xi)(4)
那么整个数据集的不确定性(也就是熵)就是各个分段身高对应的学生群体的不确定性之和。但是这里还要注意一个问题,身高的分布并不是均匀的,例如上面身高1.62到1.64的学生可能非常多,且这部分学生的体重不确定性最大,如果均匀对待这部分身高的学生,那么总体的不确定计算出来的就会偏小。因此我们还要考虑身高的分布,即 P˜(x) ,也就是考虑加权和,这样就得到了公式(3)。