我们首先知道信息熵是考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。公式如下:
我们的条件熵的定义是:定义为X给定条件下,Y的条件概率分布的熵对X的数学期望
这个还是比较抽象,下面我们解释一下:
设有随机变量(X,Y),其联合概率分布为
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。
随机变量X给定的条件下随机变量Y的条件熵H(Y|X)
2 公式
下面推导一下条件熵的公式:
3 注意
条件熵不是在指定某个是数(某个变量为某个值)的情况下,另一个变量的熵是多少,而是期望。
因为条件熵中X也是一个变量,这里的变量X的每个值都会取到,是另一个变量Y熵对X的期望。
注意,这个条件熵,不是指在给定某个数(某个变量为某个值)的情况下,另一个变量的熵是多少,变量的不确定性是多少?而是期望!
因为条件熵中X也是一个变量,意思是在一个变量X的条件下(变量X的每个值都会取),另一个变量Y熵对X的期望。
这是最容易错的!
http://blog.youkuaiyun.com/xwd18280820053/article/details/70739368