预备基础概念
- X : 随机变量
- x : 随机变量X的具体取值
- P(X) : 随机变量X的概率分布
- P(X,Y) : 随机变量X,Y的联合概率分布
- P(Y|X) : 已知随机变量X的情况下,随机变量Y的条件概率分布
- P(X=x) => p(x) : 随机变量取某个值的概率
- P(X=x,Y=y) => p(x,y) : 联合概率
- P(X=x|Y=y) =>p(y|x) : 条件概率 、
- 且有 p(x,y) = p(x)*p(y|x)
信息量
事件的不确定性
事件发生的概率越大,信息量越小,事件发生的概率越小,信息量越小;
正好符合-logP 函数
熵
简单来讲,就是指所有信息量的期望
如果一个随机变量X的可能取值为X = {
x1,x2,...,xkx_{1},x_{2},... ,x_{k}x1,x2,...,xk}
其概率分布为P(X= xix_{i}xi) = pip_{i}pi (i = 1,2,…,n)
则随机变量的熵定义为
H(X)=−∑xp(x)logp(x)H(X) = -\sum_{x}p(x)logp(x)H(X)=−x∑p(x)logp(x)
等价于
H(X)=∑xp(x)log1p(x)H(X) = \sum_{x}p(x)log\frac{1}{p(x)}H(X)=x∑p(x)logp(x)1
联合熵
两个随机变量X,Y的联合分布
H(X,Y)=∑x,yp(x,y)log1p(x,y)H(X,Y) = \sum_{x,y}p(x,y)log\frac{1}{p(x,y)}H(X,Y)=x,y∑p(x,y)logp(x,y)1
条件熵
在随机变量X发生的前提下,随机变量Y发生所带来的熵定义为Y的条件熵
主要用来衡量在已知随机变量X的条件下随机变量Y的不确定性
H(Y∣X)=H(X,Y)=H(X)H(Y|X) = H(X,Y) = H(X)H(Y∣X)=H(X,Y)=H(X) 表示(X,Y)发生所包含的熵减去X单独发生包含的熵
推导
H(Y∣X)=H(X,Y)−H(X)H(Y|X) = H(X,Y) - H(X)H(Y∣X)