引子
一个离散的随机变量 x ,这个变量的有一个具体值的时候,含有多少信息?
信息量
一个事情必然发生,或者必然不发生,则没有任何信息量
一个相当不可能的事件发生后收到的信息量,要多于一个很可能发生的事件发生时收到的信息量
信息内容的度量依赖于概率分布
h(⋅) 寻找的依据:如果两个事件 x,y 是不相关的,那么我们观察到两个事件同时发生时获得的信息量,应该等于观察到事件各自发生时获得的信息量之和,即 h(x,y)=h(x)+h(y) 。两个不相关事件是统计独立的,所以 p(x,y)=p(x)p(y) 。
根据这两个关系,很容易得出
h(x)
一定可以由
p(x)
的对数给出:
负号保证信息量是非负的,低概率事件 x 对应于大信息量
熵
随机变量 x 的熵(entropy)
现在假设一个发送者想传输一个随机变量的值给接收者。这个过程中,他们传输的平均信息量可以通过下式关于概率分布
举个栗子
假设一个随机变量 xx 有8种可能的状态,每种状态都是等可能的。为了把 xx 的值传给接收者,我们需要传输一个3比特的消息。注意,这个变量的熵:
现在考虑一个具有8种可能状态 {a,b,c,d,e,f,g,h}{a,b,c,d,e,f,g,h} 的随机变量,每个状态各自的概率为 (12,14,18,116,164,164,164,164)(12,14,18,116,164,164,164,164) (Cover and Thomas, 1991)。这种情形下的熵为
非均匀分布比均匀分布的熵要小
使用更短的编码来描述更可能的事件,更长的编码来描述不太可能的事件,能够得到一个更短的平均编码长度。
熵和最短编码长度的这种关系是一种普遍的情形。无噪声编码定理(noiseless coding theorem)表明,熵是传输一个随机变量状态值所需的比特位的下界。
熵的理解
熵是无序程度的度量。
考虑一个包含N个完全相同的物体的集合,这些物体要被分到若干个箱子中,使得第
i
个箱子中有
这被称为多重性(multiplicity)
熵被定义为多重性的对数乘以一个适当的缩放常数,即:
在
ni/N
固定的情况下,
N→∞
使用Stirling’s近似
得到:
我们可以用离散随机变量
X
的状态
如果分布 p(xi)p(xi) 有多个尖锐的峰值,那么熵相对较小。相反的,如果分布 p(xi)p(xi) 相对比较平缓,那么熵就会相对大
如下图
在离散分布中,最大熵对应的是变量的所有可能状态的均匀分布。
连续变量的熵
对应连续的变量就是微分熵(differential entropy)
最大化微分熵的分布是高斯分布。求解过程是用拉格朗日法求解拉格朗日乘数。
求高斯分布的微分熵,可以得到:
熵随着分布宽度(即 δ )的增加而增加。
KL离散度
考虑某个未知的分布
p(x)
,假定用一个近似的分布
q(x)
对它进行了建模。如果使用
q(x)
来建立一个编码体系,用来把
x
的值传给接收者,那么,由于使用了
这就是分布 p(x) 和分布 q(x) 之间的相对熵(relative entropy)
凸函数(convex function)
一个函数具有如下性质:每条弦都位于函数图像或其上方(如图),那么我们说这个函数是凸函数。
凸函数 f(x) 的每条弦(蓝色表示)位于函数上或函数上方,函数用红色曲线表示
位于
x=a
到
x=b
之间的任何一个
x
值都可以写成
凸函数的性质就可以表示为
凸函数的例子有 xlnx(x>0) 和 x2
Jensen不等式
对于离散变量
对于连续变量
两个分布相似度
−lnx 是严格凸函数,因此只有 q(x)=p(x) 对于所有x都成立时,等号才成立。因此我们可以把Kullback-Leibler散度看做两个分布 p(x) 和 q(x) 之间不相似程度的度量。
在数据压缩和密度估计(即对未知概率分布建模)之间有一种隐含的关系,因为知道真实概率分布之后,可以给出最有效的压缩。如果使用了不同于真实分布的概率分布,那么一定会损失编码效率,并且在传输时增加的平均额外信息量至少等于两个分布之间的Kullback-Leibler散度。
假设数据通过未知分布
p(x)
生成,要对
p(x)
建模。可以试着使用一些参数分布
q(x|θ)
来近似这个分布。
q(x|θ)
由可调节的参数
θ
控制(例如一个多元高斯分布)。一种确定
不能直接最小化,因为不知道
右侧的第二项与
θ
无关,第一项是使用训练集估计的分布
互信息(mutual information)
可以通过考察联合概率分布与边缘概率分布乘积之间的Kullback-Leibler散度来判断它们是否“接近”于相互独立。此时,Kullback-Leibler散度为:
使用概率的加法和乘法规则,互信息和条件熵之间的关系为
因此可以把互信息看成由于知道y值而造成的x的不确定性的减小(反之亦然)。从贝叶斯的观点来看,把 p(x) 看成 x 的先验概率分布,把