信息论学习模型----最大熵原则

本文介绍最大熵原则的概念及其应用,详细解释如何通过该原则推导出一维及多维高斯分布的概率密度函数,并计算其微分熵。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最大熵原则

当根据不完整的信息作为依据进行推断时,应该由满足分布限制条件的具有最大熵的概率分布推得。

最大熵问题是一个约束最优化问题。要说明解这个问题的步骤,考虑最大微分熵:

h(X)=+px(x)logpx(x)dxh(X)=−∫−∞+∞px(x)log⁡px(x)dx

对所有随机变量X的概率密度函数px(x)px(x),满足以下约束条件:
1. px(x)0px(x)≥0,在xx的支持集之外等式成立;
2. +px(x)dx=1
3. +px(x)gi(x)dx=ai,i=1,2,...,m∫−∞+∞px(x)gi(x)dx=ai,对i=1,2,...,m
其中 gi(x)gi(x)是x的一部分函数,约束1和约束2描述概率密度函数的基本属性,约束3定义变量X的矩,它随gi(x)gi(x)的表达式不同而发生变化。

px(x)=exp(1+λ0+i=1mλigi(x))(1)(式1)px(x)=exp(−1+λ0+∑i=1mλigi(x))

式1定义了最大熵问题的最大熵分布,其解法如下:
首先形成拉格朗日函数:
+[px(x)logpx(x)+λ0+i=1mλigi(x)px(x)dx](2)(式2)∫−∞+∞[−px(x)log⁡px(x)+λ0+∑i=1mλigi(x)px(x)dx]

其中λ0λi....,λiλ0,λi,....,λi是拉格朗日乘子,对式2的被积函数求px(x)px(x)的微分,并使其为0,得到
1logpx(x)+λ0+i=1mλigi(x)=0−1−log⁡px(x)+λ0+∑i=1mλigi(x)=0

解此方程得到式1。

一维高斯分布

假设用先验知识为随机变量X的均值μμ和方差σ2σ2,根据定义随机变量X的方差由下式给出:

+(xμ)2px(x)dx=σ2=∫−∞+∞(x−μ)2px(x)dx=σ2=常数

将此式与约束条件3作比较,看出
g1(x)=(xμ)2g1(x)=(x−μ)2


a1=σ2a1=σ2

所有带入式1可得:
px(x)=exp[1+λ0+λ1(xμ)2]px(x)=exp[−1+λ0+λ1(x−μ)2]

将此等式带入约束条件2和3,解出σ0σiσ0和σi得到:
λ0=1log(2πσ2)λ0=1−log⁡(2πσ2)


λ1=12σ2λ1=−12σ2

所以得到的px(x)px(x)的分布形式为:
px(x)=12πμexp((xμ)22σ2)px(x)=12πμexp(−(x−μ)22σ2)

这样的随机变量的微分方程最大值为:

h(X)=12[1+log(2πσ2)]h(X)=12[1+log(2πσ2)]

多维高斯分布

建立计算多维高斯分布的微分熵的计算公式,由于高斯分布的熵与随机变量X的均值无关,为简化讨论,仅讨论具有均值为0的随机变量X。这样二阶统计性质由其协方差矩阵决定,它为X同自身的外积的期望所定义,这样X的联合密度函数由:

px(x)=12πm/2(det(Σ))1/2exp(12XTΣ1X)px(x)=1(2π)m/2(det(Σ))1/2exp(−12XTΣ−1X)

根据X微分熵的定义。得到:
h(X)=12[m+mlog(2π)+log|det(Σ)|]h(X)=12[m+mlog⁡(2π)+log⁡|det(Σ)|]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值