最大熵原则
当根据不完整的信息作为依据进行推断时,应该由满足分布限制条件的具有最大熵的概率分布推得。
最大熵问题是一个约束最优化问题。要说明解这个问题的步骤,考虑最大微分熵:
h(X)=−∫+∞−∞px(x)logpx(x)dxh(X)=−∫−∞+∞px(x)logpx(x)dx
对所有随机变量X的概率密度函数px(x)px(x),满足以下约束条件:
1. px(x)≥0px(x)≥0,在xx的支持集之外等式成立;
2. ;
3. ∫+∞−∞px(x)gi(x)dx=ai,对i=1,2,...,m∫−∞+∞px(x)gi(x)dx=ai,对i=1,2,...,m;
其中 gi(x)gi(x)是x的一部分函数,约束1和约束2描述概率密度函数的基本属性,约束3定义变量X的矩,它随gi(x)gi(x)的表达式不同而发生变化。
px(x)=exp(−1+λ0+∑i=1mλigi(x))(式1)(式1)px(x)=exp(−1+λ0+∑i=1mλigi(x))
式1定义了最大熵问题的最大熵分布,其解法如下:
首先形成拉格朗日函数:
∫+∞−∞[−px(x)logpx(x)+λ0+∑i=1mλigi(x)px(x)dx](式2)(式2)∫−∞+∞[−px(x)logpx(x)+λ0+∑i=1mλigi(x)px(x)dx]
其中λ0,λi,....,λiλ0,λi,....,λi是拉格朗日乘子,对式2的被积函数求px(x)px(x)的微分,并使其为0,得到
−1−logpx(x)+λ0+∑i=1mλigi(x)=0−1−logpx(x)+λ0+∑i=1mλigi(x)=0
解此方程得到式1。
一维高斯分布
假设用先验知识为随机变量X的均值μμ和方差σ2σ2,根据定义随机变量X的方差由下式给出:
∫+∞−∞(x−μ)2px(x)dx=σ2=常数∫−∞+∞(x−μ)2px(x)dx=σ2=常数
将此式与约束条件3作比较,看出
g1(x)=(x−μ)2g1(x)=(x−μ)2
和
a1=σ2a1=σ2
所有带入式1可得:
px(x)=exp[−1+λ0+λ1(x−μ)2]px(x)=exp[−1+λ0+λ1(x−μ)2]
将此等式带入约束条件2和3,解出σ0和σiσ0和σi得到:
λ0=1−log(2πσ2)λ0=1−log(2πσ2)
和
λ1=−12σ2λ1=−12σ2
所以得到的px(x)px(x)的分布形式为:
px(x)=12πμ−−−√exp(−(x−μ)22σ2)px(x)=12πμexp(−(x−μ)22σ2)
这样的随机变量的微分方程最大值为:
h(X)=12[1+log(2πσ2)]h(X)=12[1+log(2πσ2)]
多维高斯分布
建立计算多维高斯分布的微分熵的计算公式,由于高斯分布的熵与随机变量X的均值无关,为简化讨论,仅讨论具有均值为0的随机变量X。这样二阶统计性质由其协方差矩阵∑∑决定,它为X同自身的外积的期望所定义,这样X的联合密度函数由:
px(x)=1(2π)m/2(det(Σ))1/2exp(−12XTΣ−1X)px(x)=1(2π)m/2(det(Σ))1/2exp(−12XTΣ−1X)
根据X微分熵的定义。得到:
h(X)=12[m+mlog(2π)+log|det(Σ)|]h(X)=12[m+mlog(2π)+log|det(Σ)|]