信息论学习模型----最大熵原则

最新推荐文章于 2025-01-04 02:39:58 发布

柳叶吴钩

最新推荐文章于 2025-01-04 02:39:58 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：神经网络与机器学习笔记文章标签：神经网络与机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/moge19/article/details/82319053

神经网络与机器学习笔记专栏收录该内容

40 篇文章

订阅专栏

本文介绍最大熵原则的概念及其应用，详细解释如何通过该原则推导出一维及多维高斯分布的概率密度函数，并计算其微分熵。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最大熵原则

当根据不完整的信息作为依据进行推断时，应该由满足分布限制条件的具有最大熵的概率分布推得。

最大熵问题是一个约束最优化问题。要说明解这个问题的步骤，考虑最大微分熵：

h (X) = - \int + \infty - \infty p x (x) log p x (x) d x

$h(X) = -\int_{-\infty}^{+\infty}{p_x(x) \log p_x(x)} \,{\rm d}x$
对所有随机变量X的概率密度函数

px(x)px(x) $p_x(x)$ ，满足以下约束条件：
1.

px(x)≥0px(x)≥0 $p_x(x) \geq 0$ ,在

xx $x$ 的支持集之外等式成立；
2.

\int_{- \infty}^{+ \infty} p_{x} (x) d x = 1

$\int_{-\infty}^{+\infty}{p_x(x)} {\rm d}x =1$ ；
3.

∫+∞−∞px(x)gi(x)dx=ai,对i=1,2,...,m∫−∞+∞px(x)gi(x)dx=ai,对i=1,2,...,m $\int_{-\infty}^{+\infty}{p_x(x) g_i(x)} \,{\rm d}x =a_i,对i=1,2,...,m$ ；
其中

gi(x)gi(x) $g_i(x)$ 是x的一部分函数，约束1和约束2描述概率密度函数的基本属性，约束3定义变量X的矩，它随

gi(x)gi(x) $g_i(x)$ 的表达式不同而发生变化。

p x (x) = e x p (- 1 + λ 0 + \sum i = 1 m λ i g i (x)) (式 1)

$p_x(x) = exp(-1 + \lambda _0+ \sum_{i=1}^m \lambda _i g_i(x)) \tag{式1}$
式1定义了最大熵问题的最大熵分布，其解法如下：
首先形成拉格朗日函数：

\int + \infty - \infty [- p x (x) log p x (x) + λ 0 + \sum i = 1 m λ i g i (x) p x (x) d x] (式 2)

$\int_{-\infty}^{+\infty}[-p_x(x) \log p_x(x) + \lambda _0 + \sum_{i=1}^m \lambda _ig_i(x)p_x(x)\,{\rm d}x ] \tag{式2}$
其中

λ0，λi，....,λiλ0，λi，....,λi $\lambda _0，\lambda _i，....,\lambda _i$ 是拉格朗日乘子，对式2的被积函数求

px(x)px(x) $p_x(x)$ 的微分，并使其为0，得到

- 1 - log p x (x) + λ 0 + \sum i = 1 m λ i g i (x) = 0

$-1-\log p_x(x) + \lambda _0+ \sum_{i=1}^m \lambda _ig_i(x)=0$
解此方程得到式1。

一维高斯分布

假设用先验知识为随机变量X的均值 $\mu$ 和方差 $\sigma ^2$ ,根据定义随机变量X的方差由下式给出：

\int + \infty - \infty (x - μ) 2 p x (x) d x = σ 2 = 常 数

$\int_{-\infty}^{+\infty}(x- \mu)^2p_x(x)\,{\rm d}x = \sigma ^2 = 常数$
将此式与约束条件3作比较，看出

g 1 (x) = (x - μ) 2

$g_1(x) = (x-\mu )^2$
和

a 1 = σ 2

$a_1 = \sigma ^2$
所有带入式1可得：

p x (x) = e x p [- 1 + λ 0 + λ 1 (x - μ) 2]

$p_x(x) = exp[-1 + \lambda _0+ \lambda _1(x - \mu)^2]$
将此等式带入约束条件2和3，解出

σ0和σiσ0和σi $\sigma _0和 \sigma _i$ 得到：

λ 0 = 1 - log (2 π σ 2)

$\lambda _0 = 1- \log (2 \pi \sigma^2)$
和

λ 1 = - 1 2 σ 2

$\lambda _1 = - \frac{1}{2\sigma^2}$
所以得到的

px(x)px(x) $p_x(x)$ 的分布形式为：

p x (x) = 1 2 π μ - - - \sqrt e x p (- ( x - μ ) 2 2 σ 2)

$p_x(x) = \frac{1}{\sqrt {2 \pi \mu}}exp( -\frac{(x-\mu)^2}{2\sigma ^2})$

这样的随机变量的微分方程最大值为：

h (X) = 1 2 [1 + l o g (2 π σ 2)]

$h(X) = \frac{1}{2}[1 + log(2 \pi \sigma ^2 )]$

多维高斯分布

建立计算多维高斯分布的微分熵的计算公式，由于高斯分布的熵与随机变量X的均值无关，为简化讨论，仅讨论具有均值为0的随机变量X。这样二阶统计性质由其协方差矩阵 $\sum$ 决定，它为X同自身的外积的期望所定义，这样X的联合密度函数由：

p x (x) = 1 （ 2 π ） m / 2 ( d e t ( Σ ) ) 1 / 2 e x p (- 1 2 X T Σ - 1 X)

$p_x(x) = \frac{1}{（2\pi）^{m/2}(det(\Sigma))^{1/2}}exp(- \frac{1}{2}X^T \Sigma^{-1}X)$
根据X微分熵的定义。得到：

h (X) = 1 2 [m + m log (2 π) + log | d e t (Σ) |]

$h(X) = \frac{1}{2}[m+m\log(2\pi) +\log|det(\Sigma)|]$

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。