概率统计:围观高斯分布

高斯分布,又称正态分布,服从高斯分布的噪音叫白噪音,在概率论、数理统计中的地位大概是最重要的分布,没有之一。看名字就牛得不得了,用数学王子高斯命名,又称“正态”,其他的分布都“不正”。概率论中,最核心的两类定理,一个叫大数定理,另一个叫中心极限定理,中心极限就是正态分布,没听说过的是概率盲,看不懂的概率跛脚,不会用的概率不及格。
高斯分布这么重要,为什么?怎么发现的,又有那些独特性质,来围观一下。

一 发现高斯分布

事实上,在高斯分布被发现之前,就有了最小似然估计方法,高斯分布正是通过最小似然估计发现的。起源于在估计测量误差。最简单的测量长度,初中老师就教我们要进行多次测量,然后求平均值得到长度,这样可以消减误差;测量金属丝直径的时候,老师教我们弄根棍子,然后将金属丝平整绵密的缠在棍子上n圈,然后测量棍子被缠部分长度,除以圈数,就得到了金属丝的直径。
假设一根棍子的真实长度为u0u0,被测量了无数次,测量长度是一个随机变量XX,每次测得的长度记为 x i , i = 1.. n XX的观测值,统计学家关心俩个事,棍子的真实长度 u 0 ,和XX的分布。
假设随机变量 X 的密度函数为p(x)p(x),合理的假设件事:

1、p(x)p(x)关于uu是对称的,对任意 Δ x 0 ,有:p(u0Δx)=p(u0+Δx)p(u0−Δx)=p(u0+Δx)
2、p(x)p(x)是连续并且可导的,极端点要求是光滑的(存在任意阶导数)。
3、测量所得的均值就是棍子的真实长度,u0=1nni=1xi=x¯u0=1n∑i=1nxi=x¯
根据极大似然估计有:

l(u)=1ni=1nln(p(xiu))l(u)=1n∑i=1nln(p(xi−u))

由对称性可知, l(u)l(u) u=u0u=u0 处取得极值,即 dl(u)duu=u0=0dl(u)du∣u=u0=0
g(x)=dln(p(x))dx=p(x)pxg(x)=dln(p(x))dx=p′(x)px
则有:
dl(u)duu=u0=1ni=1ng(xiu0)=0i=1ng(xiu0)=0dl(u)du∣u=u0=1n∑i=1ng(xi−u0)=0∑i=1ng(xi−u0)=0

根据第三个假设,测量的时候就是以测量的均值代替棍子真实长度。这个假设很重要,今天来看也是合理,根据大数定理有:
1ni=1nxi=x¯pu01n∑i=1nxi=x¯→pu0

在这个假设下,得到:
i=1ng(xix¯)=0∑i=1ng(xi−x¯)=0

简单考虑 n=3n=3 的情况,即 ei=xix¯3i=1ei=0ei=xi−x¯→∑i=13ei=0
由此有:
g(e1)+g(e2)+g(e3)=0g(e1)+g(e2)+g(e1e2)=0g(e1)+g(e2)+g(e3)=0→g(e1)+g(e2)+g(−e1−e2)=0
  1. e1=e2=e3=0e1=e2=e3=0时,有3g(0)=0g(0)=03g(0)=0→g(0)=0
  2. e1=0e1=0是,有e2=e3e2=−e3,此时:g(e1)+g(e2)+g(e3)=g(e1)+g(e1)=0g(x)=g(x)g(e1)+g(e2)+g(e3)=g(e1)+g(−e1)=0→g(−x)=−g(x),g(x)g(x)是中心对称的。
  3. e2=Δx,e1=xe2=Δx,e1=x此时:g(x)+g(Δx)=g(x+Δx)g(x)+g(Δx)=g(x+Δx),所以有:
    g(x)+g(Δx)=g(x+Δx)g(Δx)Δx=g(x+Δx)g(x)Δxg(0)=0limΔx0g(Δx)g(0)Δx=limΔx0g(x+Δx)g(x)Δxg(x)=g(0)ag(x)=ax+cg(0)=0c=0g(x)=ax#线ln(p(x))=0.5ax2+cp(x)=ece0.5ax2g(x)+g(Δx)=g(x+Δx)⇒g(Δx)Δx=g(x+Δx)−g(x)Δx∵g(0)=0⇒limΔx→0g(Δx)−g(0)Δx=limΔx→0g(x+Δx)−g(x)Δx⇒g′(x)=g′(0)≡a⇒g(x)=ax+c∵g(0)=0→c=0⇒g(x)=ax#线性函数⇒ln(p(x))=0.5ax2+c⇒p(x)=ece0.5ax2

    显然,根据密度函数的性质,当xx→∞时,要求密度函数p(x)0p(x)→0,因此必然要求a<0a<0,改记a1σ2a≡−1σ2
    我们得到了一个密度函数,p(x)=ecex22σ2p(x)=ece−x22σ2,根据分布函数性质p(x)dx=1∫−∞∞p(x)dx=1,做一些数学上的运算,就可以得到p(x)p(x)的完整表达式p(x)=12πσex22σ2p(x)=12πσe−x22σ2,回到测量问题,XX的密度函数是
    p ( x ) = 1 2 π σ e ( x u ) 2 2 σ 2
    .

以上就是高斯分布首次发现的过程,最先由数学家棣莫弗公布,不过在他公布之后,数学王子高斯说他早就发现了,最后高斯赢了,现在叫正态分布(Normal Distribution),英文名看起来叫“普通分布”,别的分布都不够普通,地位很特殊呀。
高斯就是那一代数学家的珠穆朗玛峰,数学才华横溢,他的发现很多都不公布,等别人发布了,他就说这个结论我早得到了,才华压制几代数学家,那个时代数学家就怕撞墙高斯。

二 从特征函数来看高斯分布

与特征函数功能相类似的还有矩母函数,Mx(t)=E(etx)Mx(t)=E(etx),但是矩母函数的收敛性能不好主要是etx∣etx∣是指数函数,容易导致积分发散,因此很多分布函数不一定有矩母函数。特征函数没有这个问题。
特征函数就是对随机变量XX的密度函数做傅里叶变换,表达式是:

φ X ( t ) = E ( e i t X ) = e i t x p ( x ) d x

因为 eitx=1∣eitx∣=1 ,随机变量一定有唯一特征函数和唯一的分布函数,而且特征函数与分布函数是一一对应的。

|φX(t)||eitxp(x)|dx=|eitx||p(x)|dx=p(x)dx=1|φX(t)|≤∫−∞∞|eitxp(x)|dx=∫−∞∞|eitx|∗|p(x)|dx=∫−∞∞p(x)dx=1

下面推导高斯分布的特征函数:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值