信息熵计算公式:

演示数据:
| 性别(x) | 考试成绩(y) |
|---|---|
| 男 | 优 |
| 女 | 优 |
| 男 | 差 |
| 女 | 优 |
| 男 | 优 |
X的信息熵计算为:
p(男) = 3/5 = 0.6
p(女) = 2/5 = 0.4
根据上面的计算公式可得:
列X的信息熵 为: H(x)= - ( 0.6 * log2(0.6) + 0.4 * log2(0.4)) = 0.97.......
Y的信息熵计算为:
p(优) = 4/5 = 0.8
p(差) = 1/5 = 0.2
列X的信息熵 为: H(x)= - ( 0.8 * log2(0.8) + 0.2 * log2(0.2)) = 0.72.......
由信息熵引出的条件熵:

条件熵的概念类似于条件概率,就是再给定X的情况的条件下,y的信息熵。
给定性别为男,成绩为优的条件熵:
H(y | x = 男)= 3/5 * -(2/3 * log2(2/3) + 1/3 * log2(1/3)) = 0.55...
H(y | x = 女)= 2/5 * -( 1 * log2(1) + 1 * log2(1)) = 0.0...
H(y | x)= H(y | x = 男)+ H(y | x = 女) = 0.55... + 0.0... = 0.55

博客主要介绍了信息熵和条件熵的计算。通过演示数据,分别计算了X(性别)和Y(成绩)的信息熵,如X中男、女的信息熵,Y中优、差的信息熵。还由信息熵引出条件熵,给出了给定性别为男、女时成绩的条件熵及最终条件熵的计算结果。
2万+





