背景
本文为研究生课程里面的一个作业,题目自选,最后老师也没有让我们提交,所以传上来给大家参考、相互学习,如有疑问请联系850051568@qq.com
题目
已知某随机分布满足的约束条件如下式:
s.t.{x≥0E(x)=1μ
s.t.\left\{
\begin{aligned}
x &\ge 0 \\
E(x)&=\frac{1}{\mu}
\end{aligned}
\right.
s.t.⎩⎪⎨⎪⎧xE(x)≥0=μ1
求使得熵最大的概率分布。
问题分析
本题要求依据所测量得到的数据及由其构成的约束条件下,按最不确定性,即使熵最大化的原则求取概率分布。求解思路为:根据最大熵发求解概率分布的数学模型采用拉格朗日(Lagrange)乘子法来解析求解,根据KKT条件,可得最优解。
理论介绍
信息熵的物理含义为某一信号不确定性的度量,数学公式为:I(xi)=−logp(xi)I(x_i)=-\log p(x_i)I(xi)=−logp(xi).连续随机变量X的熵的物理含义是:某个信源的总体平均不确定性的度,数学公式为:H(X)=−∫Rp(x)logp(x)dxH(X)=-\int_R p(x)\log p(x)dxH(X)=−∫Rp(x)logp(x)dx.
最大熵发求解概率分布的数学模型为:
max(−∫Sp(x)logp(x)dx∣ s.t {−p(x)≤0∫Sp(x)=1∫Sp(x)fi(x)dx=ai,(i=1,2,3,…,n))
\max \left(-\int_{S} p(x) \log p(x) d x \mid \text { s.t }\left\{\begin{aligned}
-p(x) &\leq 0 \\
\int_{S} p(x)&=1 \\
\int_{S} p(x) f_{i}(x) d x&=a_{i},(i=1,2,3, \ldots, n)
\end{aligned}\right)\right.
max⎝⎜⎜⎜⎜⎜⎛−∫Sp(x)logp(x)dx∣ s.t ⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧−p(x)∫Sp(x)∫Sp(x)fi(x)dx≤0=1=ai,(i=1,2,3,…,n)⎠⎟⎟⎟⎟⎟⎞
代入拉格朗日(Lagrange)乘子法方程,可得式:
L(p,λ)=∫Splogpdx−μ−1p+μ0(∫Spdx−1)+∑j=1nλj(∫Spfjdx−aj).
L(p, \lambda)=\int_{S} p \log p d x-\mu_{-1} p+\mu_{0}\left(\int_{S} p d x-1\right)+\sum_{j=1}^{n} \lambda_{j}\left(\int_{S} p f_{j} d x-a_{j}\right).
L(p,λ)=∫Splogpdx−μ−1p+μ0(∫Spdx−1)+j=1∑nλj(∫Spfjdx−aj).
根据KKT条件对上式求导=0,可得最优解
∂L∂p=lnp+1−μ−1+μ0+∑j=1nλjfj=0
\frac{\partial L}{\partial p}=\ln p+1-\mu_{-1}+\mu_{0}+\sum_{j=1}^{n} \lambda_{j} f_{j}=0
∂p∂L=lnp+1−μ−1+μ0+j=1∑nλjfj=0
进而得:
p=e−1+μ−1−μ0−∑j=1nλjfj=C∗e−∑j=1nλj∗fj(x)=C∗e−λ1∗f1(x)−λ2f2(x)−…=p∗
\begin{aligned}
p&=e^{-1+\mu_{-1}-\mu_{0}-\sum_{j=1}^{n} \lambda_{j} f_{j}}\\
&=C^* e^{-\sum_{j=1}^{n} \lambda_{j}^{*} f_{j}(x)}\\
&=C^* e^{-\lambda_{1}^* f_1(x)-\lambda_{2}f_2(x)-\dots}\\
&=p^*
\end{aligned}
p=e−1+μ−1−μ0−∑j=1nλjfj=C∗e−∑j=1nλj∗fj(x)=C∗e−λ1∗f1(x)−λ2f2(x)−…=p∗
题目求解
由最优解标准式和已知约束,可知满足最大熵概率形式为:
p(x)=ce−λ1f1(x)−λ2f2(x)−… s.t. {x≥0E(x)=1μ⇒f1(x)=xf2(x)=x}⇒p(x)={ce−(λ1+λ2)x,x≥00,others
\left.\begin{array}{l}
p(x)=c e^{-\lambda_{1} f_{1}(x)-\lambda_{2} f_{2}(x)-\ldots} \\
\text { s.t. } \left\{\begin{aligned}
x &\ge 0 \\
E(x)&=\frac{1}{\mu}
\end{aligned} \Rightarrow \begin{aligned}
f_{1}(x)&=x \\
f_{2}(x)&=x
\end{aligned}\right.
\end{array}\right\} \Rightarrow p(x)=\left\{\begin{aligned}
c e^{-(\lambda_{1}+\lambda_{2}) x}&,x \ge 0\\
0&,others
\end{aligned}\right.
p(x)=ce−λ1f1(x)−λ2f2(x)−… s.t. ⎩⎪⎨⎪⎧xE(x)≥0=μ1⇒f1(x)f2(x)=x=x⎭⎪⎪⎪⎬⎪⎪⎪⎫⇒p(x)={ce−(λ1+λ2)x0,x≥0,others
根据概率满足的固有条件和题目所给条件:{∫0+∞p(x)dx=1∫0+∞xp(x)dx=1μ\left\{\begin{aligned}
\int _0^{+\infty}p(x)dx&=1\\
\int _0^{+\infty}xp(x)dx&=\frac{1}{\mu}
\end{aligned}\right.⎩⎪⎪⎪⎨⎪⎪⎪⎧∫0+∞p(x)dx∫0+∞xp(x)dx=1=μ1
上述2式联立,得:
{c∫0+∞e−(λ1+λ2)xdx=1c∫0+∞xe−(λ1+λ2)xdx=1μ
\left\{\begin{aligned}
c\int _0^{+\infty}e^{-(\lambda_{1}+\lambda_{2}) x}dx&=1\\
c\int _0^{+\infty}xe^{-(\lambda_{1}+\lambda_{2}) x}dx&=\frac{1}{\mu}
\end{aligned}\right.
⎩⎪⎪⎪⎨⎪⎪⎪⎧c∫0+∞e−(λ1+λ2)xdxc∫0+∞xe−(λ1+λ2)xdx=1=μ1
将λ1\lambda_{1}λ1+λ2\lambda_{2}λ2视为一个整体,ccc为未知量,μ\muμ为已知量,2个方程接2个未知量,解得:
{c=μλ1+λ2=μ
\left\{\begin{aligned}
c&=\mu\\
\lambda_{1}+\lambda_{2}&=\mu
\end{aligned}\right.
{cλ1+λ2=μ=μ
综上,可得求得的熵最大概率分布为:
p(x)={μe−μx,x≥00,othersp(x)=\left\{\begin{aligned}
\mu e^{-\mu x},x \ge 0\\
0,others
\end{aligned}\right.p(x)={μe−μx,x≥00,others,是一个系数为μ\muμ的指数分布。
总结
- 输出信号自变量非负时,输出信号的概率密度函数是指数分布时熵最大。
- 用拉格朗日乘子法求解有约束的最小化数学模型时,约束、表达式、变量(待求变量)是三要素,缺一不可。
- (自)信息量用于反映信号的不确定性,当前信号存在的概率越低,其不确定性就越高,所以对应的信息熵就越大。信息量越大,表示先验不确定性和后验不确定性的差值越大。
该文探讨了在满足特定约束条件下,如何利用最大熵原则求解概率分布的问题。通过拉格朗日乘子法和KKT条件,推导出熵最大时的概率分布形式为指数分布。具体地,当期望值为1/μ时,概率密度函数为μe^(-μx),x≥0,体现了熵最大化的指数分布特性。
3546

被折叠的 条评论
为什么被折叠?



