高斯关于正态分布的推导

本文是对网上高斯推导方式的总结,高斯推导的原文我并没有看过

定义

  1. 连续变量 X i , i = 1.. n X_i,i=1..n Xi,i=1..n为独立同分布的随机变量,其样本数学期望为 E ( X i ) = X i ‾ E(X_i)=\overline{X_i} E(Xi)=Xi,总体期望为 μ \mu μ;样本方差为 D ( X i ) D(X_i) D(Xi),总体方差为 σ 2 \sigma^2 σ2
  2. 该变量的抽样误差(即 X i − μ X_i-\mu Xiμ)遵循分布 N N N,其概率密度函数为 f f f

假设

  1. 对于总体的无偏抽样,样本期望和总体期望相等 E ( X i ) = μ E(X_i)=\mu E(Xi)=μ,样本方差和总体方差相等。由此可以推论得到概率密度函数是偶函数。
  2. 概率密度函数为连续且可导的

目标

求函数 f f f,使得当下抽样误差发生的概率最大,即函数 L ( x ) = ∏ i = 1 n f ( X i − x ) L(x)=\prod\limits_{i=1}^{n}f(X_i-x) L(x)=i=1nf(Xix) x = μ x=\mu x=μ处取得最大值(极大似然估计)

求解

由于自然对数单调增,对 L ( X i ) = ∏ i = 1 n f ( X i − x ) L(X_i)=\prod\limits_{i=1}^{n}f(X_i-x) L(Xi)=i=1nf(Xix)等式两边取对数
ln ⁡ L ( x ) = ∑ i = 1 n ln ⁡ f ( X i − x ) \begin{equation} \ln{L(x)}=\sum\limits_{i=1}^{n}{\ln{f(X_i-x)}} \tag{1} \end{equation} lnL(x)=i=1nlnf(Xix)(1)
对公式两边求导可得
L ′ ( x ) L ( x ) = ∑ i = 1 n f ′ ( X i − x ) f ( X i − x ) (2) \frac{L'(x)}{L(x)}=\sum\limits_{i=1}^{n}{\frac{f'(X_i-x)}{f(X_i-x)}} \tag{2} L(x)L(x)=i=1nf(Xix)f(Xix)(2)
由定义可知 1 L ( x ) \frac{1}{L(x)} L(x)1恒大于0,那么 L ′ ( x ) = 0 和 L ′ ( x ) L ( x ) = 0 L'(x)=0和\frac{L'(x)}{L(x)}=0 L(x)=0L(x)L(x)=0的解相同

为了简化公式,此处定义函数 g ( x ) = f ′ ( x ) f ( x ) g(x)=\frac{f'(x)}{f(x)} g(x)=f(x)f(x)

对于连续函数而言,极值点必然是驻点,再结合所求的目标,则有
∑ i = 1 n g ( X i − μ ) = 0 (3) \sum\limits_{i=1}^{n}{g(X_i-\mu)}=0 \tag{3} i=1ng(Xiμ)=0(3)
不妨将 ( 3 ) (3) (3)式视作关于变量 X i X_i Xi的多元函数,其中 μ \mu μ为定值,于是再次对等式两侧求偏导。

对于 X 1 X_1 X1的求偏导后有
g ′ ( X 1 − μ ) ( 1 − 1 n ) + g ′ ( X 2 − μ ) ( − 1 n ) + . . . + g ′ ( X n − μ ) ( − 1 n ) = 0 \begin{equation} g'(X_1-\mu)(1-\frac{1}{n})+g'(X_2-\mu)(-\frac{1}{n})+...+g'(X_n-\mu)(-\frac{1}{n})=0 \tag{4.1} \end{equation} g(X1μ)(1n1)+g(X2μ)(n1)+...+g(Xnμ)(n1)=0(4.1)
以此类推,对于 X i X_i Xi
g ′ ( X 1 − μ ) ( − 1 n ) + g ′ ( X 2 − μ ) ( − 1 n ) + . . . + g ′ ( X i − μ ) ( 1 − 1 n ) + . . . + g ′ ( X n − μ ) ( − 1 n ) = 0 \begin{equation} g'(X_1-\mu)(-\frac{1}{n})+g'(X_2-\mu)(-\frac{1}{n})+...+g'(X_i-\mu)(1-\frac{1}{n})+...+g'(X_n-\mu)(-\frac{1}{n})=0 \tag{4.i} \end{equation} g(X1μ)(n1)+g(X2μ)(n1)+...+g(Xiμ)(1n1)+...+g(Xnμ)(n1)=0(4.i)
( 4.1 ) ∼ ( 4. n ) (4.1)\sim(4.n) (4.1)(4.n)联立后可得齐次线性方程组 AX = 0 \textbf{AX}=\textbf{0} AX=0,写成矩阵形式有
[ 1 − 1 n − 1 n − 1 n 1 − 1 n … − 1 n − 1 n − 1 n − 1 n ⋮ ⋱ ⋮ − 1 n − 1 n − 1 n − 1 n … 1 − 1 n − 1 n − 1 n 1 − 1 n ] × [ g ‘ ( X 1 − μ ) g ‘ ( X 2 − μ ) ⋮ g ‘ ( X n − 1 − μ ) g ‘ ( X n − μ ) ] = [ 0 0 ⋮ 0 0 ] \begin{bmatrix} \begin{matrix} 1-\frac{1}{n} & -\frac{1}{n} \\ -\frac{1}{n} & 1-\frac{1}{n} \end{matrix} & \ldots & \begin{matrix} -\frac{1}{n} & -\frac{1}{n} \\ -\frac{1}{n} & -\frac{1}{n} \end{matrix} \\ \vdots & \ddots & \vdots \\ \begin{matrix} -\frac{1}{n} & -\frac{1}{n} \\ -\frac{1}{n} & -\frac{1}{n} \end{matrix} & \ldots & \begin{matrix} 1-\frac{1}{n} & -\frac{1}{n} \\ -\frac{1}{n} & 1-\frac{1}{n} \end{matrix} \end{bmatrix} \times \begin{bmatrix} g^`(X_1-\mu)\\ g^`(X_2-\mu)\\ \vdots\\ g^`(X_{n-1}-\mu)\\ g^`(X_n-\mu) \end{bmatrix}= \begin{bmatrix} 0\\ 0\\ \vdots\\ 0\\ 0 \end{bmatrix} 1n1n1n11n1n1n1n1n1n1n1n1n11n1n1n11n1 × g(X1μ)g(X2μ)g(Xn1μ)g(Xnμ) = 0000
对系数矩阵进行初等变换
A ∼ i > 1 r i − r n [ 1 0 0 1 … 0 − 1 0 − 1 ⋮ ⋱ ⋮ 0 0 − 1 n − 1 n … 1 − 1 − 1 n 1 − 1 n ] ∼ n ∗ r n [ 1 0 0 1 … 0 − 1 0 − 1 ⋮ ⋱ ⋮ 0 0 − 1 − 1 … 1 − 1 − 1 n − 1 ] ∼ i < n r n + Σ r i [ 1 0 0 1 … 0 − 1 0 − 1 ⋮ ⋱ ⋮ 0 0 0 0 … 1 − 1 0 0 ] \begin{align} \textbf{A} % 每一行减去第n行 &\overset{r_i - r_n}{\underset{i>1}{\sim}} \begin{bmatrix} \begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix} & \ldots & \begin{matrix} 0 & -1 \\ 0 & -1 \end{matrix} \\ \vdots & \ddots & \vdots \\ \begin{matrix} 0 & 0 \\ -\frac{1}{n} & -\frac{1}{n} \end{matrix} & \ldots & \begin{matrix} 1 & -1\\ -\frac{1}{n} & 1-\frac{1}{n} \end{matrix} \end{bmatrix}\\ % 第n行乘以n &\overset{n*r_n}{\sim} \begin{bmatrix} \begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix} & \ldots & \begin{matrix} 0 & -1 \\ 0 & -1 \end{matrix} \\ \vdots & \ddots & \vdots \\ \begin{matrix} 0 & 0 \\ -1 & -1 \end{matrix} & \ldots & \begin{matrix} 1 & -1\\ -1 & n-1 \end{matrix} \end{bmatrix}\\ % 第n行与前n-1行相加 &\overset{r_n+\Sigma r_i}{\underset{i<n}{\sim}} \begin{bmatrix} \begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix} & \ldots & \begin{matrix} 0 & -1 \\ 0 & -1 \end{matrix} \\ \vdots & \ddots & \vdots \\ \begin{matrix} 0 & 0 \\ 0 & 0 \end{matrix} & \ldots & \begin{matrix} 1 & -1\\ 0 & 0 \end{matrix} \end{bmatrix}\\ \end{align} Ai>1rirn 10010n10n100111n111n1 nrn 100101010011111n1 i<nrn+Σri 1001000000111010
由此可得解为
X = [ g ′ ( X 1 − μ ) g ′ ( X 2 − μ ) ⋮ g ′ ( X n − 1 − μ ) g ′ ( X n − μ ) ] = [ c c ⋮ c c ] \begin{align} \textbf{X} =\begin{bmatrix} g'(X_1-\mu)\\ g'(X_2-\mu)\\ \vdots\\ g'(X_{n-1}-\mu)\\ g'(X_n-\mu) \end{bmatrix} =\begin{bmatrix} c\\ c\\ \vdots\\ c\\ c \end{bmatrix} \tag{5} \end{align} X= g(X1μ)g(X2μ)g(Xn1μ)g(Xnμ) = cccc (5)
g ′ ( X 1 − μ ) = g ′ ( X 2 − μ ) = . . = g ′ ( X n − μ ) = c g'(X_1-\mu)=g'(X_2-\mu)=..=g'(X_n-\mu)=c g(X1μ)=g(X2μ)=..=g(Xnμ)=c,

因为样本由随机抽样生成,且函数为光滑且连续的,所以 g ′ ( x ) = c g'(x)=c g(x)=c始终成立

因此有 g ( x ) = c x + b g(x)=cx+b g(x)=cx+b

结合我们之前的假设1中的推论, g ( x ) g(x) g(x)显然是奇函数,所以 g ( x ) = c x g(x)=cx g(x)=cx

所以有 d f ( x ) f ( x ) d x = c x \frac{\mathrm{d}f(x)}{f(x)\mathrm{d}x}=cx f(x)dxdf(x)=cx

变形后等式两边求不定积分可得
f ( x ) = c 1 e 1 2 c 2 x 2 (6) f(x)=c_1e^{\frac{1}{2}c_2x^2}\tag{6} f(x)=c1e21c2x2(6)
根据概率密度函数的定义: ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty}{f(x)\mathrm{d}x}=1 +f(x)dx=1,则有
∫ − ∞ + ∞ c 1 ∗ e 1 2 c 2 x 2 d x = 1 \int_{-\infty}^{+\infty}{c_1*e^{\frac{1}{2}c_2x^2}\mathrm{d}x}=1 +c1e21c2x2dx=1
不妨令 I = ∫ − ∞ + ∞ c 1 ∗ e 1 2 c 2 x 2 d x I=\int_{-\infty}^{+\infty}{c_1*e^{\frac{1}{2}c_2 x^2}\mathrm{d}x} I=+c1e21c2x2dx,则
I 2 = ∬ c 1 2 ∗ e 1 2 c 2 ( x 2 + y 2 ) d x d y I^2=\iint{c_1^2*e^{\frac{1}{2}c_2(x^2+y^2)}\mathrm{d}x\mathrm{d}y} I2=c12e21c2(x2+y2)dxdy
化为极坐标形式则有
I 2 = ∬ c 1 2 ∗ e 1 2 c 2 ρ 2 ρ d ρ d θ = ∫ 0 2 π c 1 2 d θ ∫ 0 + ∞ ρ e 1 2 c 2 ρ 2 d ρ = ∫ 0 2 π c 1 2 c 2 d θ ∫ 0 + ∞ c 2 ρ e 1 2 c 2 ρ 2 d ρ   ( 显然此处 c 2 < 0 ) = ∫ 0 2 π − c 1 2 c 2 d θ = − 2 π c 1 2 c 2 (7) \begin{align} I^2 &=\iint{c_1^2*e^{\frac{1}{2}c_2\rho^2} \rho\mathrm{d}\rho\mathrm{d}\theta}\\ &=\int_{0}^{2\pi}{c_1^2\mathrm{d}\theta \int_{0}^{+\infty}{\rho e^{\frac{1}{2}c_2\rho^2} \mathrm{d}\rho}}\\ &=\int_{0}^{2\pi}{\frac{c_1^2}{c_2}\mathrm{d}\theta \int_{0}^{+\infty}{c_2\rho e^{\frac{1}{2}c_2\rho^2} \mathrm{d}\rho}}\,(显然此处c_2<0)\\ &=\int_{0}^{2\pi}{-\frac{c_1^2}{c_2}\mathrm{d}\theta}\\ &=-2\pi\frac{c_1^2}{c_2} \end{align} \tag{7} I2=c12e21c2ρ2ρdρdθ=02πc12dθ0+ρe21c2ρ2dρ=02πc2c12dθ0+c2ρe21c2ρ2dρ(显然此处c2<0)=02πc2c12dθ=2πc2c12(7)
高斯这里直接猜测 c 2 = − 1 σ 2 c_2=-\frac{1}{\sigma^2} c2=σ21,我对此的推测是或许这么做正好可以在指数项量纲上做到相互抵消(高斯最开始是在研究天体观测中推导出这个分布的),但是这个说法也有问题,因为最后这个概率密度函数并不是没有单位的。我看到另一个说法可能是高斯是受到 e − x 2 e^{-x^2} ex2的形式的启发,但是我认为有点过于牵强了。根据上式则可以得到解为
{ c 1 = 1 σ 2 π c 2 = − 1 σ 2 (8) \begin{cases} c_1=\frac{1}{\sigma\sqrt{2\pi}} \\ c_2=-\frac{1}{\sigma^2} \end{cases}\tag{8} {c1=σ2π 1c2=σ21(8)
结合之前的讨论和 ( 6 ) (6) (6)式可以得到正态分布的一维形式
f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 (9) f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\tag{9} f(x)=σ2π 1e2σ2(xμ)2(9)

矩阵形式

矩阵形式将单个变量的情况推广到成对变量构成的形式

定义

  1. X \boldsymbol{X} X为来自不同分布的抽样 m m m次结果向量 x i \boldsymbol{x_i} xi构成的列向量,即 X = ( x 1 , x 2 , . . . , x n ) T , 其中 x i = ( x i , 1 , x i , 2 , . . . , x i , m ) T X=(x_1,x_2,...,x_n)^T,其中\boldsymbol{x_i}=(x_{i,1},x_{i,2},...,x_{i,m})^T X=(x1,x2,...,xn)T,其中xi=(xi,1,xi,2,...,xi,m)T
  2. μ \boldsymbol{\mu} μ为每个分布的总体均值列向量,即 μ = ( μ 1 , μ 2 , . . . , μ n ) T \boldsymbol{\mu}=(\mu_1,\mu_2,...,\mu_n)^T μ=(μ1,μ2,...,μn)T
  3. Σ \boldsymbol{\Sigma} Σ n n n阶协方差矩阵,即 Σ = { c i j ∣ i , j = 1.. n } ,其中 c i j = E { [ x i − E ( x i ) ] [ x j − E ( x j ) ] } \boldsymbol{\Sigma}=\{c_{ij}|i,j=1..n\},其中c_{ij}=E\{[\boldsymbol{x_i}-E(x_i)][\boldsymbol{x_j}-E(x_j)]\} Σ={ciji,j=1..n},其中cij=E{[xiE(xi)][xjE(xj)]}
  4. 对于所有总体的无偏抽样,样本期望和总体期望均相等,即 E ( x i ) = μ i E(\boldsymbol{x_i})=\mu_i E(xi)=μi,样本方差和总体方差相等。由此可以推论得到概率密度函数是偶函数。
  5. 所有概率密度函数均为连续且可导的

多维形式

每次抽样均为成对从分布 i , j i,j i,j分别抽样,似然函数矩阵为
f ( x 1 , x 2 , . . , x n ) = 1 ( 2 π ) k ∣ Σ ∣ e − ( X − μ ) T Σ − 1 ( X − μ ) 2 f(x_1,x_2,..,x_n)=\frac{1}{\sqrt{(2\pi)^k|\boldsymbol{\Sigma}|}}e^{-\frac{(\boldsymbol{X}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{X}-\boldsymbol{\mu})}{2}} f(x1,x2,..,xn)=(2π)kΣ 1e2(Xμ)TΣ1(Xμ)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值