本文是对网上高斯推导方式的总结,高斯推导的原文我并没有看过
定义
- 连续变量 X i , i = 1.. n X_i,i=1..n Xi,i=1..n为独立同分布的随机变量,其样本数学期望为 E ( X i ) = X i ‾ E(X_i)=\overline{X_i} E(Xi)=Xi,总体期望为 μ \mu μ;样本方差为 D ( X i ) D(X_i) D(Xi),总体方差为 σ 2 \sigma^2 σ2
- 该变量的抽样误差(即 X i − μ X_i-\mu Xi−μ)遵循分布 N N N,其概率密度函数为 f f f
假设
- 对于总体的无偏抽样,样本期望和总体期望相等 E ( X i ) = μ E(X_i)=\mu E(Xi)=μ,样本方差和总体方差相等。由此可以推论得到概率密度函数是偶函数。
- 概率密度函数为连续且可导的
目标
求函数 f f f,使得当下抽样误差发生的概率最大,即函数 L ( x ) = ∏ i = 1 n f ( X i − x ) L(x)=\prod\limits_{i=1}^{n}f(X_i-x) L(x)=i=1∏nf(Xi−x)在 x = μ x=\mu x=μ处取得最大值(极大似然估计)
求解
由于自然对数单调增,对
L
(
X
i
)
=
∏
i
=
1
n
f
(
X
i
−
x
)
L(X_i)=\prod\limits_{i=1}^{n}f(X_i-x)
L(Xi)=i=1∏nf(Xi−x)等式两边取对数
ln
L
(
x
)
=
∑
i
=
1
n
ln
f
(
X
i
−
x
)
\begin{equation} \ln{L(x)}=\sum\limits_{i=1}^{n}{\ln{f(X_i-x)}} \tag{1} \end{equation}
lnL(x)=i=1∑nlnf(Xi−x)(1)
对公式两边求导可得
L
′
(
x
)
L
(
x
)
=
∑
i
=
1
n
f
′
(
X
i
−
x
)
f
(
X
i
−
x
)
(2)
\frac{L'(x)}{L(x)}=\sum\limits_{i=1}^{n}{\frac{f'(X_i-x)}{f(X_i-x)}} \tag{2}
L(x)L′(x)=i=1∑nf(Xi−x)f′(Xi−x)(2)
由定义可知
1
L
(
x
)
\frac{1}{L(x)}
L(x)1恒大于0,那么
L
′
(
x
)
=
0
和
L
′
(
x
)
L
(
x
)
=
0
L'(x)=0和\frac{L'(x)}{L(x)}=0
L′(x)=0和L(x)L′(x)=0的解相同
为了简化公式,此处定义函数 g ( x ) = f ′ ( x ) f ( x ) g(x)=\frac{f'(x)}{f(x)} g(x)=f(x)f′(x)
对于连续函数而言,极值点必然是驻点,再结合所求的目标,则有
∑
i
=
1
n
g
(
X
i
−
μ
)
=
0
(3)
\sum\limits_{i=1}^{n}{g(X_i-\mu)}=0 \tag{3}
i=1∑ng(Xi−μ)=0(3)
不妨将
(
3
)
(3)
(3)式视作关于变量
X
i
X_i
Xi的多元函数,其中
μ
\mu
μ为定值,于是再次对等式两侧求偏导。
对于
X
1
X_1
X1的求偏导后有
g
′
(
X
1
−
μ
)
(
1
−
1
n
)
+
g
′
(
X
2
−
μ
)
(
−
1
n
)
+
.
.
.
+
g
′
(
X
n
−
μ
)
(
−
1
n
)
=
0
\begin{equation} g'(X_1-\mu)(1-\frac{1}{n})+g'(X_2-\mu)(-\frac{1}{n})+...+g'(X_n-\mu)(-\frac{1}{n})=0 \tag{4.1} \end{equation}
g′(X1−μ)(1−n1)+g′(X2−μ)(−n1)+...+g′(Xn−μ)(−n1)=0(4.1)
以此类推,对于
X
i
X_i
Xi有
g
′
(
X
1
−
μ
)
(
−
1
n
)
+
g
′
(
X
2
−
μ
)
(
−
1
n
)
+
.
.
.
+
g
′
(
X
i
−
μ
)
(
1
−
1
n
)
+
.
.
.
+
g
′
(
X
n
−
μ
)
(
−
1
n
)
=
0
\begin{equation} g'(X_1-\mu)(-\frac{1}{n})+g'(X_2-\mu)(-\frac{1}{n})+...+g'(X_i-\mu)(1-\frac{1}{n})+...+g'(X_n-\mu)(-\frac{1}{n})=0 \tag{4.i} \end{equation}
g′(X1−μ)(−n1)+g′(X2−μ)(−n1)+...+g′(Xi−μ)(1−n1)+...+g′(Xn−μ)(−n1)=0(4.i)
将
(
4.1
)
∼
(
4.
n
)
(4.1)\sim(4.n)
(4.1)∼(4.n)联立后可得齐次线性方程组
AX
=
0
\textbf{AX}=\textbf{0}
AX=0,写成矩阵形式有
[
1
−
1
n
−
1
n
−
1
n
1
−
1
n
…
−
1
n
−
1
n
−
1
n
−
1
n
⋮
⋱
⋮
−
1
n
−
1
n
−
1
n
−
1
n
…
1
−
1
n
−
1
n
−
1
n
1
−
1
n
]
×
[
g
‘
(
X
1
−
μ
)
g
‘
(
X
2
−
μ
)
⋮
g
‘
(
X
n
−
1
−
μ
)
g
‘
(
X
n
−
μ
)
]
=
[
0
0
⋮
0
0
]
\begin{bmatrix} \begin{matrix} 1-\frac{1}{n} & -\frac{1}{n} \\ -\frac{1}{n} & 1-\frac{1}{n} \end{matrix} & \ldots & \begin{matrix} -\frac{1}{n} & -\frac{1}{n} \\ -\frac{1}{n} & -\frac{1}{n} \end{matrix} \\ \vdots & \ddots & \vdots \\ \begin{matrix} -\frac{1}{n} & -\frac{1}{n} \\ -\frac{1}{n} & -\frac{1}{n} \end{matrix} & \ldots & \begin{matrix} 1-\frac{1}{n} & -\frac{1}{n} \\ -\frac{1}{n} & 1-\frac{1}{n} \end{matrix} \end{bmatrix} \times \begin{bmatrix} g^`(X_1-\mu)\\ g^`(X_2-\mu)\\ \vdots\\ g^`(X_{n-1}-\mu)\\ g^`(X_n-\mu) \end{bmatrix}= \begin{bmatrix} 0\\ 0\\ \vdots\\ 0\\ 0 \end{bmatrix}
1−n1−n1−n11−n1⋮−n1−n1−n1−n1…⋱…−n1−n1−n1−n1⋮1−n1−n1−n11−n1
×
g‘(X1−μ)g‘(X2−μ)⋮g‘(Xn−1−μ)g‘(Xn−μ)
=
00⋮00
对系数矩阵进行初等变换
A
∼
i
>
1
r
i
−
r
n
[
1
0
0
1
…
0
−
1
0
−
1
⋮
⋱
⋮
0
0
−
1
n
−
1
n
…
1
−
1
−
1
n
1
−
1
n
]
∼
n
∗
r
n
[
1
0
0
1
…
0
−
1
0
−
1
⋮
⋱
⋮
0
0
−
1
−
1
…
1
−
1
−
1
n
−
1
]
∼
i
<
n
r
n
+
Σ
r
i
[
1
0
0
1
…
0
−
1
0
−
1
⋮
⋱
⋮
0
0
0
0
…
1
−
1
0
0
]
\begin{align} \textbf{A} % 每一行减去第n行 &\overset{r_i - r_n}{\underset{i>1}{\sim}} \begin{bmatrix} \begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix} & \ldots & \begin{matrix} 0 & -1 \\ 0 & -1 \end{matrix} \\ \vdots & \ddots & \vdots \\ \begin{matrix} 0 & 0 \\ -\frac{1}{n} & -\frac{1}{n} \end{matrix} & \ldots & \begin{matrix} 1 & -1\\ -\frac{1}{n} & 1-\frac{1}{n} \end{matrix} \end{bmatrix}\\ % 第n行乘以n &\overset{n*r_n}{\sim} \begin{bmatrix} \begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix} & \ldots & \begin{matrix} 0 & -1 \\ 0 & -1 \end{matrix} \\ \vdots & \ddots & \vdots \\ \begin{matrix} 0 & 0 \\ -1 & -1 \end{matrix} & \ldots & \begin{matrix} 1 & -1\\ -1 & n-1 \end{matrix} \end{bmatrix}\\ % 第n行与前n-1行相加 &\overset{r_n+\Sigma r_i}{\underset{i<n}{\sim}} \begin{bmatrix} \begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix} & \ldots & \begin{matrix} 0 & -1 \\ 0 & -1 \end{matrix} \\ \vdots & \ddots & \vdots \\ \begin{matrix} 0 & 0 \\ 0 & 0 \end{matrix} & \ldots & \begin{matrix} 1 & -1\\ 0 & 0 \end{matrix} \end{bmatrix}\\ \end{align}
Ai>1∼ri−rn
1001⋮0−n10−n1…⋱…00−1−1⋮1−n1−11−n1
∼n∗rn
1001⋮0−10−1…⋱…00−1−1⋮1−1−1n−1
i<n∼rn+Σri
1001⋮0000…⋱…00−1−1⋮10−10
由此可得解为
X
=
[
g
′
(
X
1
−
μ
)
g
′
(
X
2
−
μ
)
⋮
g
′
(
X
n
−
1
−
μ
)
g
′
(
X
n
−
μ
)
]
=
[
c
c
⋮
c
c
]
\begin{align} \textbf{X} =\begin{bmatrix} g'(X_1-\mu)\\ g'(X_2-\mu)\\ \vdots\\ g'(X_{n-1}-\mu)\\ g'(X_n-\mu) \end{bmatrix} =\begin{bmatrix} c\\ c\\ \vdots\\ c\\ c \end{bmatrix} \tag{5} \end{align}
X=
g′(X1−μ)g′(X2−μ)⋮g′(Xn−1−μ)g′(Xn−μ)
=
cc⋮cc
(5)
即
g
′
(
X
1
−
μ
)
=
g
′
(
X
2
−
μ
)
=
.
.
=
g
′
(
X
n
−
μ
)
=
c
g'(X_1-\mu)=g'(X_2-\mu)=..=g'(X_n-\mu)=c
g′(X1−μ)=g′(X2−μ)=..=g′(Xn−μ)=c,
因为样本由随机抽样生成,且函数为光滑且连续的,所以 g ′ ( x ) = c g'(x)=c g′(x)=c始终成立
因此有 g ( x ) = c x + b g(x)=cx+b g(x)=cx+b
结合我们之前的假设1中的推论, g ( x ) g(x) g(x)显然是奇函数,所以 g ( x ) = c x g(x)=cx g(x)=cx
所以有 d f ( x ) f ( x ) d x = c x \frac{\mathrm{d}f(x)}{f(x)\mathrm{d}x}=cx f(x)dxdf(x)=cx
变形后等式两边求不定积分可得
f
(
x
)
=
c
1
e
1
2
c
2
x
2
(6)
f(x)=c_1e^{\frac{1}{2}c_2x^2}\tag{6}
f(x)=c1e21c2x2(6)
根据概率密度函数的定义:
∫
−
∞
+
∞
f
(
x
)
d
x
=
1
\int_{-\infty}^{+\infty}{f(x)\mathrm{d}x}=1
∫−∞+∞f(x)dx=1,则有
∫
−
∞
+
∞
c
1
∗
e
1
2
c
2
x
2
d
x
=
1
\int_{-\infty}^{+\infty}{c_1*e^{\frac{1}{2}c_2x^2}\mathrm{d}x}=1
∫−∞+∞c1∗e21c2x2dx=1
不妨令
I
=
∫
−
∞
+
∞
c
1
∗
e
1
2
c
2
x
2
d
x
I=\int_{-\infty}^{+\infty}{c_1*e^{\frac{1}{2}c_2 x^2}\mathrm{d}x}
I=∫−∞+∞c1∗e21c2x2dx,则
I
2
=
∬
c
1
2
∗
e
1
2
c
2
(
x
2
+
y
2
)
d
x
d
y
I^2=\iint{c_1^2*e^{\frac{1}{2}c_2(x^2+y^2)}\mathrm{d}x\mathrm{d}y}
I2=∬c12∗e21c2(x2+y2)dxdy
化为极坐标形式则有
I
2
=
∬
c
1
2
∗
e
1
2
c
2
ρ
2
ρ
d
ρ
d
θ
=
∫
0
2
π
c
1
2
d
θ
∫
0
+
∞
ρ
e
1
2
c
2
ρ
2
d
ρ
=
∫
0
2
π
c
1
2
c
2
d
θ
∫
0
+
∞
c
2
ρ
e
1
2
c
2
ρ
2
d
ρ
(
显然此处
c
2
<
0
)
=
∫
0
2
π
−
c
1
2
c
2
d
θ
=
−
2
π
c
1
2
c
2
(7)
\begin{align} I^2 &=\iint{c_1^2*e^{\frac{1}{2}c_2\rho^2} \rho\mathrm{d}\rho\mathrm{d}\theta}\\ &=\int_{0}^{2\pi}{c_1^2\mathrm{d}\theta \int_{0}^{+\infty}{\rho e^{\frac{1}{2}c_2\rho^2} \mathrm{d}\rho}}\\ &=\int_{0}^{2\pi}{\frac{c_1^2}{c_2}\mathrm{d}\theta \int_{0}^{+\infty}{c_2\rho e^{\frac{1}{2}c_2\rho^2} \mathrm{d}\rho}}\,(显然此处c_2<0)\\ &=\int_{0}^{2\pi}{-\frac{c_1^2}{c_2}\mathrm{d}\theta}\\ &=-2\pi\frac{c_1^2}{c_2} \end{align} \tag{7}
I2=∬c12∗e21c2ρ2ρdρdθ=∫02πc12dθ∫0+∞ρe21c2ρ2dρ=∫02πc2c12dθ∫0+∞c2ρe21c2ρ2dρ(显然此处c2<0)=∫02π−c2c12dθ=−2πc2c12(7)
高斯这里直接猜测
c
2
=
−
1
σ
2
c_2=-\frac{1}{\sigma^2}
c2=−σ21,我对此的推测是或许这么做正好可以在指数项量纲上做到相互抵消(高斯最开始是在研究天体观测中推导出这个分布的),但是这个说法也有问题,因为最后这个概率密度函数并不是没有单位的。我看到另一个说法可能是高斯是受到
e
−
x
2
e^{-x^2}
e−x2的形式的启发,但是我认为有点过于牵强了。根据上式则可以得到解为
{
c
1
=
1
σ
2
π
c
2
=
−
1
σ
2
(8)
\begin{cases} c_1=\frac{1}{\sigma\sqrt{2\pi}} \\ c_2=-\frac{1}{\sigma^2} \end{cases}\tag{8}
{c1=σ2π1c2=−σ21(8)
结合之前的讨论和
(
6
)
(6)
(6)式可以得到正态分布的一维形式
f
(
x
)
=
1
σ
2
π
e
−
(
x
−
μ
)
2
2
σ
2
(9)
f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\tag{9}
f(x)=σ2π1e−2σ2(x−μ)2(9)
矩阵形式
矩阵形式将单个变量的情况推广到成对变量构成的形式
定义
- X \boldsymbol{X} X为来自不同分布的抽样 m m m次结果向量 x i \boldsymbol{x_i} xi构成的列向量,即 X = ( x 1 , x 2 , . . . , x n ) T , 其中 x i = ( x i , 1 , x i , 2 , . . . , x i , m ) T X=(x_1,x_2,...,x_n)^T,其中\boldsymbol{x_i}=(x_{i,1},x_{i,2},...,x_{i,m})^T X=(x1,x2,...,xn)T,其中xi=(xi,1,xi,2,...,xi,m)T
- μ \boldsymbol{\mu} μ为每个分布的总体均值列向量,即 μ = ( μ 1 , μ 2 , . . . , μ n ) T \boldsymbol{\mu}=(\mu_1,\mu_2,...,\mu_n)^T μ=(μ1,μ2,...,μn)T
- Σ \boldsymbol{\Sigma} Σ为 n n n阶协方差矩阵,即 Σ = { c i j ∣ i , j = 1.. n } ,其中 c i j = E { [ x i − E ( x i ) ] [ x j − E ( x j ) ] } \boldsymbol{\Sigma}=\{c_{ij}|i,j=1..n\},其中c_{ij}=E\{[\boldsymbol{x_i}-E(x_i)][\boldsymbol{x_j}-E(x_j)]\} Σ={cij∣i,j=1..n},其中cij=E{[xi−E(xi)][xj−E(xj)]}
- 对于所有总体的无偏抽样,样本期望和总体期望均相等,即 E ( x i ) = μ i E(\boldsymbol{x_i})=\mu_i E(xi)=μi,样本方差和总体方差相等。由此可以推论得到概率密度函数是偶函数。
- 所有概率密度函数均为连续且可导的
多维形式
每次抽样均为成对从分布
i
,
j
i,j
i,j分别抽样,似然函数矩阵为
f
(
x
1
,
x
2
,
.
.
,
x
n
)
=
1
(
2
π
)
k
∣
Σ
∣
e
−
(
X
−
μ
)
T
Σ
−
1
(
X
−
μ
)
2
f(x_1,x_2,..,x_n)=\frac{1}{\sqrt{(2\pi)^k|\boldsymbol{\Sigma}|}}e^{-\frac{(\boldsymbol{X}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{X}-\boldsymbol{\mu})}{2}}
f(x1,x2,..,xn)=(2π)k∣Σ∣1e−2(X−μ)TΣ−1(X−μ)