正态分布
由于 χ 2 \chi^2 χ2(chi-squard)分布、t分布、F分布都是由正态分布构造的,首先对正态分布密度函数定义有
P ( x ) = 1 2 π σ exp − ( x − μ ) 2 2 σ 2 P(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp^{-\frac{(x-\mu)^2}{2\sigma^2}} P(x)=2πσ1exp−2σ2(x−μ)2
而标准化的正态分布为
P ( x ) = 1 2 π exp − x 2 2 P(x) = \frac{1}{\sqrt{2\pi}}\exp^{-\frac{x^2}{2}} P(x)=2π1exp−2x2
卡方分布
定义
设
X
1
,
X
2
,
.
.
.
.
.
.
,
X
n
X_1,X_2,......,X_n
X1,X2,......,Xn相互独立并且都满足标准正态分布(0,1),则称
r
.
v
.
r.v.
r.v.
Y
=
∑
i
=
1
n
X
i
2
Y = \sum_{i=1}^{n}X_i^2
Y=∑i=1nXi2 服从自由度为
n
n
n的
χ
2
\chi^2
χ2分布,记为
Y
∼
χ
2
(
n
)
Y \sim \chi^2(n)
Y∼χ2(n)
概率密度函数
f
(
x
;
n
)
=
1
2
n
2
Γ
(
n
2
)
x
n
2
−
1
e
−
x
2
(
x
>
0
)
f(x;n)=\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}(x>0)
f(x;n)=22nΓ(2n)1x2n−1e−2x(x>0)
其中
Γ
(
s
)
=
∫
0
∞
e
−
t
t
s
−
1
d
t
(
s
>
0
)
\Gamma(s) = \int_{0}^{\infty}e^{-t}t^{s-1}dt(s>0)
Γ(s)=∫0∞e−tts−1dt(s>0),对于伽马函数
Γ
(
⋅
)
\Gamma(·)
Γ(⋅)先挖个坑(可以暂时先看这个也挺不错的)。
对于不同参数的密度函数有:
性质
t分布
定义
设
r
.
v
.
Z
,
Y
r.v.Z,Y
r.v.Z,Y,其中
Z
∼
N
(
0
,
1
)
,
X
∼
χ
2
(
n
)
Z\sim N(0,1),X\sim \chi^2(n)
Z∼N(0,1),X∼χ2(n),则定义
r
.
v
.
T
=
Z
X
/
n
r.v.T = \frac{Z}{\sqrt{X/n}}
r.v.T=X/nZ为服从自由度为n的t分布。
对于不同参数的t分布密度函数有图如下:
概率密度函数
性质
t分布主要是检验均值是否相同,在小样本中有着广泛的应用。同时t分布有着厚尾性质,对于一些性质不那么好的点比较宽容(比如t-SNE对于SNE的改进)。
特别值得注意的是,t(1)为Cauchy分布,就是那个令人讨厌的没有高阶矩的可恶的家伙,而当
n
→
∞
n \rightarrow \infty
n→∞时候,t分布就趋向于正态分布。
F分布
定义
假设 r . v . X , Y r.v. X,Y r.v.X,Y分别满足 X ∼ χ 2 ( n 1 ) , Y ∼ χ 2 ( n 2 ) X\sim \chi^2(n_1),Y \sim\chi^2(n_2) X∼χ2(n1),Y∼χ2(n2),则称 r . v . Z = X / n 1 Y / n 2 r.v. Z = \frac{X/n_1}{Y/n_2} r.v.Z=Y/n2X/n1为F分布
概率密度函数
对于不同参数的F分布密度函数有图如下:
性质
我个人对F分布第一次有深刻印象是在方差检验中,现在回头来看F检验的定义,确定F检验是用来检验方差是否不同。
Attention
这三个分布是数理统计常用的分布,但特别要注意的是,t分布和F分布只能用来检验连续性数据,所以当检验数据特别稀疏的时候容易导致误判,而 χ 2 \chi^2 χ2分布都可以。