正态分布
用Y表示表示随机变量,若其服从均值为μ\muμ,方差为δ2\delta^2δ2的分布规律,则称其为正态分布
Y∼N(μ,δ2)
Y\sim N\left(\mu,\delta^2\right)
Y∼N(μ,δ2)
经常用在自然和社会科学来代表一组不明的随机变量,正态分布的数学期望为μ\muμ,决定了其分布的位置,其方差δ2\delta^2δ2或标准差δ\deltaδ决定了分布的幅度。
正态分布的概率密度函数为
f(x)=1δ2πe−(x−μ)22δ2
f(x)=\frac{1}{\delta\sqrt{2\pi}}e^-\frac{\left(x-\mu\right)^2}{2\delta^2}
f(x)=δ2π1e−2δ2(x−μ)2
标准正态分布
标准正态分布是当μ=0\mu=0μ=0,δ2=1\delta^2=1δ2=1时的正态分布,即Y∼N(0,1)Y\sim N\left(0,1\right)Y∼N(0,1)。
正态分布(μ,δ2)\left(\mu,\delta^2\right)(μ,δ2)函数曲线下的面积:
68.27%的面积在平均值左右的一个标准差范围内
95.45%的面积在平均值左右两个标准差2σ的范围内
99.73%的面积在平均值左右三个标准差3σ的范围内
99.99%的面积在平均值左右四个标准差4σ的范围内
根据正态分布衍生的三大分布
1. χ2\chi^2χ2 分布
在很久以前,通过看其他资料或者其他形式了解的时候,总是有点半懵的状态,根绝略懂又又些不太懂(可能我比较笨一点),都是因为它们表示得太抽象,难以理解。其实卡方分布可以简单的理解为一句话:n个服从标准正态分布的随机变量的平方和构成一新的随机变量。
设 随机变量Y1,Y2,…Yn相互独立, 都服从标准正态分布N(0,1), 则称随机变量Y2=Y12+Y22+......+Yn2Y^2=Y^{2}_{1}+Y^{2}_{2}+......+Y^{2}_{n}Y2=Y12+Y22+......+Yn2所服从的分布为自由度为 n 的Y2Y^{2}Y2分布。其中n称为自由度(样本中独立或能自由变化的自变量的个数)当总体Y∼N(μ,δ2)Y\sim N\left(\mu,\delta^2\right)Y∼N(μ,δ2),从中抽取容量为nnn的样本时,则
∑i=1n(Xi−Xˉ)2δ2∼χ2(n−1)
\frac{\sum\limits_{i=1}^{n}{\left(X_i-\bar{X}\right)^2}}{\delta^2} \sim \chi^2 \left(n-1\right)
δ2i=1∑n(Xi−Xˉ)2∼χ2(n−1)
卡方分布的密度函数为
f(x)={12n/2Γ(n/2)e−x2xn2−1x>00x≤0
f(x)=
\begin{cases}
\frac{1}{2^{n/2}\Gamma\left(n/2\right)}e^{-\frac{x}{2}}x^{\frac{n}{2}-1} & \text{x>0}\\\\
0& \text{x$\leq$0}
\end{cases}
f(x)=⎩⎪⎨⎪⎧2n/2Γ(n/2)1e−2xx2n−10x>0x≤0
卡方分布有以下特点:
1.分布的变量值始终为正;
2.随着参数 n 的增大,分布趋近于正态分布;
3.期望为,E(χ2)=nE(\chi^2)=nE(χ2)=n,方差为:D(χ2)=2nD(\chi^2)=2nD(χ2)=2n(nnn为自由度);
4.可加性,若存在A∼χ2(n1)A\sim\chi^2(n_1)A∼χ2(n1)和B∼χ2(n2)B\sim\chi^2(n_2)B∼χ2(n2)这样的两个卡方分布,则A+B也服从自由度为n1+n2n_1+n_2n1+n2的卡方分布。
2. ttt 分布
假设有两组随机变量:
随机变量XXX服从标准正态分布N(0,1)N(0,1)N(0,1)
随机变量YYY服从自由度为nnn的卡方分布χ2(n)\chi^2(n)χ2(n)
XXX与YYY独立,则由服从不同分布的两组随机变量衍生成新的随机变量ttt,且满足一下条件
t=XY/N
t=\frac{X}{\sqrt{Y/N}}
t=Y/NX
则称ttt为服从自由度为nnn的ttt分布或学生氏分布。其密度函数为:
f(x)=Γ(n+12)nπΓ(n/2)(1+x2n)−n+12
f(x)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi}\Gamma(n/2)}\left(1+\frac{x^2}{n}\right)^{-\frac{n+1}{2}}
f(x)=nπΓ(n/2)Γ(2n+1)(1+nx2)−2n+1

也是随着自由度逐渐增大,t分布逐渐接近标准正态分布。
3. FFF 分布
假设有两组随机变量UUU、VVV,且U∼χ2(n1)U\sim\chi^2(n_1)U∼χ2(n1),V∼χ2(n2)V\sim\chi^2(n_2)V∼χ2(n2),UUU、VVV相互独立,当
F=U/n1V/n2
F=\frac{U/n_1}{V/n_2}
F=V/n2U/n1
则称FFF为服从自由度为n1n_1n1,n2n_2n2的FFF分布,记为F∼F(n1,n2)F\sim F(n_1,n_2)F∼F(n1,n2)
其密度函数为:
fn1,n2(x)={Γ(n1+n22)Γ(n12)Γ(n22)n1n12n2n22xn12−1(n2+n1x)−n1+n22x>00x≤0
f_{n_1,n_2}(x)=
\begin{cases}
\frac{\Gamma\left(\frac{n_1+n_2}{2}\right)}{\Gamma\left(\frac{n_1}{2}\right)\Gamma\left(\frac{n_2}{2}\right)}n_1^{\frac{n_1}{2}}n_2\frac{n_2}{2}x^{\frac{n_1}{2}-1}(n_2+n_1x)^{-\frac{n_1+n_2}{2}} & \text{x>0}\\\\
0& \text{x$\leq$0}
\end{cases}
fn1,n2(x)=⎩⎪⎪⎨⎪⎪⎧Γ(2n1)Γ(2n2)Γ(2n1+n2)n12n1n22n2x2n1−1(n2+n1x)−2n1+n20x>0x≤0
图示
以上就是统计学中几种比较常见、重要的分布的简单概述,讲到的都是比较浅层的东西,没人深入的透析,而且语言比较通俗。
下一篇总结一下点估计,区间估计和中心极限定理。