好不容易理解了信息熵的概念后,又发现还有其他各种熵,经常把人绕晕,比如决策树模型中要计算信息增益(其实就是互信息),最大熵模型中要计算条件熵,下面我们就来用5分钟理解下互信息,条件熵,联合熵。先看他们之间的关系。
上图中两个完整的圆圈,分别表示X的信息熵H(X),和Y的信息熵H(Y),两个圆有一部分是重叠的,重叠部分用C表示,A和B表示的是完整圆去除了重叠区域C的部分。
H(X)=A+C, 是图中左边完整的圆圈区域,表示的是随机事件X的信息熵
H(Y)=B+C, 是图中右边完整的圆圈区域,表示的是随机事件Y的信息熵
I(X,Y)=C,是图中两圆重叠的C区域,表示的是X和Y的互信息。
互信息的大小衡量了X事件和Y事件的相关程度,当两件事毫无关联,则互信息为0。比如在5分钟理解贝叶斯公式里有个例子,老王是否在办公室和老张是否在办公室这两个随机事件,如果老王和老张是完全没有关系的人,在两个不同公司上班,两个公司可能在不同国家,老张和老王从事的是不同的职业或岗位。那老王是否在办公室和老张是否在办公室就相关程度为0,用图表示,2个圆是不相交的。反之,老王和老张是同一家公司从事着需要密切配合的工作,老王在办公室的那天,老张必然要在办公室,老张在办公室时,老王也必然在办公室,那两件事就是相关程度最高。两个圆就是重合的。
H(X|Y)=A,是图中左边浅蓝色区域,H(Y|X)=B,是图中绿色的区域。这表示的是条件熵。
为了理