高斯分布的前身今世
0.参考
从高斯分布的导出讲起——为什么概率密度函数长成这个样子? 作者:蓦风星吟
1.高斯分布的概率密度函数
f ( x ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2πσ21e−2σ2(x−μ)2
N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2), μ \mu μ反应的是位置, σ \sigma σ反应的是形状。
2.几个概念
2.1 似然(Likelihood)
第一点 什么是似然
简单通俗的来讲就是,一系列的概率密度函数的乘积,说白了也就是还是一种特别的复合的“概率”。比如对于正态分布,如果有独立同分布的观察值 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn,则其似然为: L ( x 1 , x 2 , ⋯ , x n ) = ∏ i = 1 n 1 2 π σ 2 e − ( x i − μ ) 2 2 σ 2 L(x_1,x_2,\cdots,x_n)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} L(x1,x2,⋯,xn)=i=1∏n2πσ21e−2σ2(xi−μ)2
我们也可以看到对于正态分布,这里还依赖于两个参数,就是 μ \mu μ和 σ \sigma σ的二元函数。当然在给其中一个参数的情况下,我们也可以将其看成关于另一个的函数。
第二点 最大似然(Maximum Likelihood)
对于正态这个似然,在给其中一个参数的情况下,我们也可以将其看成关于另一个的函数。因此,在给定一个标准的情况下,那么是不是可以基于观测值对其中的未知参数进行估计呢?这是个非常朴素想法,就好比方程的思想,原本一个函数,给定自变量,那么对应的函数值自然可以计算。反过来,若是给定一定函数值,理论上我们也希望试图找到对应的自变量。这个想法再进一步就是,给定一个标准,比如最大,最小,我们基于这个标准,也试图去寻找对应达到标准 (比如最大,最小函数值)所对应的自变量,这就是参数估计的思想。
回到最大似然发的核心,在这里这个标准就是使得似然函数(关于某一或某一些参数的)最大,然后去估计对应的参数(基于观测值)的值。
至于为什么选择似然函数呢,其实主要也是因为似然函数朴素简单的表达出一种概率,一个基于n次观测的整体的概率,这样的情况下,我们自然朴素的认为或者是希望,似然中包含的合理的参数应该使得我们整体的概率最大的一个或者是一组,因此才被我们观测到。
3.如何基于一些假设导出正态分布
实际的测量中,若 μ \mu μ是分布均值的真实值,当然真实值我们永远不知道,只能希望根据观测值 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn尽可能的去估计它。首先我们记观察误差 x i − μ x_i-\mu xi−μ的分布密度函数为 p ( x i − μ ) p(x_i-\mu) p(xi−μ),然后给出以下假设:
1. p ( x ) p(x) p(x)关于 x = 0 x=0 x=0对称,且对于一切 x x x成立 p ( x ) > 0 p(x)>0 p(x)>0
2. p ( x ) p(x) p(x)具有连续的导函数
下面来考察这两个假设的合理性
1.首先 p ( x ) p(x) p(x)关于 x = 0 x=0 x=0对称,这个假设非常合理,因为我们的似然误差分布密度函数为 p ( x i − μ ) p(x_i-\mu) p(xi−μ),也就是观测值与真实均值的差,这个自然在左右的可能性一样,不然这个观测试验也就有偏颇了,当然另一个理由就是经验,再说非负性要求,这个也是必须的,概率没有负的。
2.连续的导函数,这个是为了求导方便。
由于我们的观察误差 x i − μ x_i-\mu xi−μ的分布密度函数为 p ( x i − μ ) p(x_i-\mu) p(xi−μ),那么此时的似然函数就是: L ( μ ) = ∏ i = 1 n p ( x i − μ ) L(\mu)=\prod_{i=1}^np(x_i-\mu) L(μ)=i=1∏np(xi−μ)
实际上,这个似然函数刻画了这组观测值落在真实均值 μ \mu μ
附近的可能性大小。当然此处高斯还给出了一个重要的假设:
观察值的平均值 x ˉ = 1 n ∑ i = 1 n x i \bar x=\frac{1}{n}\sum_{i=1}^{n}x_i xˉ=n1∑i=1nxi作为未知参数 μ \mu μ的估计值时,使得似然 L ( μ ) L(\mu) L(μ)最大。
事实上,下面的推导主要还是依赖于这个假设。回头看看这个假设,其实也是符合逻辑和直观感受的,这表明观测的均值作为一个理论均值可以让似然函数最大。
4.高斯分布的导出的具体过程
若 x ˉ \bar x xˉ使得似然函数 L ( μ ) L(\mu) L(μ)最大,则必要条件就是 d L ( μ ) d μ ∣ μ = x ˉ = 0 \frac{dL(\mu)}{d\mu}|_{\mu=\bar x}=0 dμdL(μ)∣μ=xˉ=0,再加上对数即: d ln L ( μ ) d μ ∣ μ = x ˉ = 0 \frac{d\ln L(\mu)}{d\mu}|_{\mu=\bar x}=0 dμdlnL(μ)∣μ=xˉ=0,记 d ln p ( x ) d x = g ( x ) \frac{d\ln p(x)}{dx}=g(x) dxdlnp(x)=g(x),进一步就是 p ′ ( x ) p ( x ) = g ( x ) \frac{p^{'}(x)}{p(x)}=g(x) p(x)p′(x)=g(x),代入到上式得: d ln L ( μ ) d μ ∣ μ = x ˉ = d ln ∏ i = 1 n p ( x i − μ ) d μ ∣ μ = x ˉ = d ∑ i = 1 n ln p ( x i − μ ) d μ ∣ μ = x ˉ = ∑ i = 1 n d ln p ( x i − μ ) d μ ∣ μ = x ˉ = − ∑ i = 1 n g ( x i − μ ) ∣ μ = x ˉ = − ∑ i = 1 n g ( x i − x ˉ ) = 0 \begin{aligned}\frac{d\ln L(\mu)}{d\mu}|_{\mu=\bar x}&=\frac{d\ln \prod_{i=1}^np(x_i-\mu)}{d\mu}|_{\mu=\bar x}\\&=\frac{d\sum_{i=1}^n\ln p(x_i-\mu)}{d\mu}|_{\mu=\bar x}\\&=\sum_{i=1}^n\frac{d\ln p(x_i-\mu)}{d\mu}|_{\mu=\bar x}\\&=-\sum_{i=1}^ng(x_i-\mu)|_{\mu=\bar x}\\&=-\sum_{i=1}^ng(x_i-\bar x)\\&=0\end{aligned} dμdlnL(μ)∣μ=xˉ=dμdln∏i=1np(xi−μ)∣μ=xˉ=dμd∑i=1nlnp(xi−μ)∣μ=xˉ=i=1∑n

最低0.47元/天 解锁文章
8273

被折叠的 条评论
为什么被折叠?



