[1] https://www.cnblogs.com/kyrieng/p/8694705.html
熵
H ( X ) = − ∑ x p ( x ) l o g p ( x ) H(X) = -\sum_xp(x)logp(x) H(X)=−∑xp(x)logp(x), 它表示的是随机变量 X X X的不确定性,不确定性越大,熵越大。
没有条件约束的时候,X是均匀分布,对应的熵最大。
给定均值和方差的前提下,正态分布对应的熵最大。
联合熵
这里以两个随机变量为例:
H ( X , Y ) = − ∑ x , y p ( x , y ) l o g p ( x , y ) H(X,Y)=-\sum_{x,y}p(x,y)logp(x,y) H(X,Y)=−∑x,yp(x,y)logp(x,y)
条件熵
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X) = H(X,Y)-H(X) H(Y∣X)=H(X,Y)−H(X)
H ( Y ∣ X ) = − ∑ x , y p ( x ) p ( y ∣ x ) l o g p ( y ∣ x ) = − ∑ x , y p ( x , y ) l o g p ( y ∣ x ) H(Y|X)=-\sum_{x,y}p(x)p(y|x)logp(y|x) = -\sum_{x,y}p(x,y)logp(y|x)