样本及抽样分布
一、随机样本
定义: 设X是具有分布函数F的随机变量,若X1, X2, …, Xn 是具有同一分布函数F的、相互独立的随机变量,则称X1, X2, …, Xn 为从分布函数F(或总体F、或总体X)得到的容量为n的简单随机样本,简称样本,它们的观察值x1, x2, …, xn 称为样本值,又称为X的n个独立的观察值。
试验全部可能的观察值称为总体。一个总体对应于一个随机变量X。每一个可能的观察值称为个体。总体中所包含的个体的个数称为总体的容量。
二、箱线图
分位数: 设有容量为n的样本观察值x1, x2, …, xn 样本p分位数(0<p<1)记为xp,它具有以下的性质:(1)至少有np个观察值小于或等于xp;(2)至少有n(1-p)个观察值大于或等于xp。
xp={x([np]+1),当np不是整数12[x(np)+x(np+1)],当np是整数x_p=\begin{cases}
x_{([np]+1)}, 当np不是整数\\\\
\dfrac{1}{2}[x_{(np)}+x_{(np+1)}], 当np是整数
\end{cases}xp=⎩⎪⎪⎨⎪⎪⎧x([np]+1),当np不是整数21[x(np)+x(np+1)],当np是整数
0.25分位数x0.25称为第一四分位数,又记为Q1;0.5分位数x0.5称为样本中位数,又记为Q2或M;0.75分位数x0.75称为第三四分位数,又记为Q3;
箱线图:
箱线图如下所示
从箱线图可以看出:
1.中心位置:中位数所在位置就是数据集的中心。
2.散布程度:全部数据都落在[Min,Max]之内,在区间[Min,Q1],[Q1,M],[M,Q3],[Q3,Max]的数据个数各约占1/4. 区间较短时,表示落在该区间的点较集中,反之较为分散。
3.关于对称性:若中位数位于箱子的中间位置,则数据分布较为对称。又若Min离M的距离较Max离M的距离大,则表示数据分布向左倾斜,反之表示数据向右倾斜,且能看出分布尾部的长短。
疑似异常值: 在数据集中某一观察值不寻常地大于或小于该数据集中的其他数据,称为疑似异常值。
Q1与Q3之间的距离Q3-Q1=记为\xlongequal{记为}记为IQR,称为四分位数间距。若数据小于Q1-1.5IQR或大于Q3+1.5IQR,就认为它是疑似异常值。
修正箱线图: 画出疑似异常值并以∗*∗表示。自箱子左侧引一水平线段直至数据集中除去疑似异常值后的最小值,又自箱子右侧引一水平线直至数据集中除去疑似异常值后的最大值。
三、抽样分布
统计量: 设X1, X2, …, Xn 是来自总体X的一个样本,g(X1, X2, …, Xn )是X1, X2, …, Xn 的函数,若g中不含未知参数,则称g(X1, X2, …, Xn )是一个统计量。
几个常用的统计量:
样本平均值:X‾=1n∑i=1nXi\overline{X}=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_iX=n1i=1∑nXi
样本方差:S2=1n−1∑i=1n(Xi−X‾)2=1n−1∑i=1n(Xi2−nX‾2)S^2=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i^2-n\overline{X}^2)S2=n−11i=1∑n(Xi−X)2=n−11i=1∑n(Xi2−nX2)
样本标准差:S=S2=1n−1∑i=1n(Xi−X‾)2S=\sqrt{\smash[b]{S^2}}=\sqrt{\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2}S=S2=n−11i=1∑n(Xi−X)2
样本k阶(原点)距:Ak=1n∑i=1nXikA_k=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i^kAk=n1i=1∑nXik, k=1,2,…
样本k阶中心距:Bk=1n∑i=1n(Xi−X‾)kB_k=\dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X})^kBk=n1i=1∑n(Xi−X)k, k=2,3,…
经验分布函数:设X1, X2, …, Xn 是来自总体分布函数F(x)的一个样本,用S(x),−∞<x<∞-\infty<x<\infty−∞<x<∞表示X1, X2, …, Xn 中不大于x的随机变量的个数。定义经验分布函数Fn(x)为
Fn(x)=1nS(x),−∞<x<∞.F_n(x)=\dfrac{1}{n}S(x), -\infty<x<\infty.Fn(x)=n1S(x),−∞<x<∞.
经验分布函数Fn(x)的观察值为
Fn(x)={0,若x<x(1),kn,若x(k)⩽x<x(k+1),k=1,2,...,n−1,1,若x⩾x(n).F_n(x)=\begin{cases}
0, 若x<x_{(1)},\\\\
\dfrac{k}{n}, 若x_{(k)}\leqslant x<x_{(k+1)}, k=1,2,...,n-1,\\\\
1, 若x\geqslant x_{(n)}.
\end{cases}Fn(x)=⎩⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎧0,若x<x(1),nk,若x(k)⩽x<x(k+1),k=1,2,...,n−1,1,若x⩾x(n).
其中样本x1, x2, …, xn 从小到大排序并重新编号为x(1)⩽x(2)⩽...⩽x(n)x_{(1)}\leqslant x_{(2)}\leqslant...\leqslant x_{(n)}x(1)⩽x(2)⩽...⩽x(n).
经验分布函数Fn(x),对于任一实数x,当n→∞n\to\inftyn→∞时Fn(x)以概率1一致收敛于分布函数F(x),即P{limn→∞sup−∞<x<∞∣Fn(x)−F(x)∣=0}=1.P\{\lim\limits_{n\to\infty} \sup\limits_{-\infty<x<\infty}|F_n(x)-F(x)|=0 \}=1.P{n→∞lim−∞<x<∞sup∣Fn(x)−F(x)∣=0}=1.因此,对于任一实数x当n充分大时,经验分布函数的任一观察值Fn(x)与总体分布函数F(x)只有微小的差别,从而在实际上可当作F(x)来使用。
抽样分布: 统计量的分布称为抽样分布。
来自正态总体的几个常用的统计量的分布。
(一)χ2\chi^2χ2分布
设X1, X2, …, Xn 是来自总体N(0,1)的样本,则称统计量
χ2=X12+X22+...+Xn2\chi^2=X_1^2+X_2^2+...+X_n^2χ2=X12+X22+...+Xn2
服从自由度为n的χ2\chi^2χ2分布,记为χ2∼χ2(n).\chi^2\sim\chi^2(n).χ2∼χ2(n). 自由度是指上式右端包含的独立变量的个数。
χ2(n)\chi^2(n)χ2(n)的概率密度为
f(y)={12n/2Γ(n/2)yn/2−1e−y/2,y>0,0, 其他.f(y)=\begin{cases}
\dfrac{1}{2^{n/2}\Gamma(n/2)}y^{n/2-1}e^{-y/2}, y>0,\\\\
0, ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~其他.
\end{cases}f(y)=⎩⎪⎪⎨⎪⎪⎧2n/2Γ(n/2)1yn/2−1e−y/2,y>0,0, 其他.
补充:
设X服从Γ\GammaΓ分布,记为X∼Γ(α,θ).X\sim\Gamma(\alpha,\theta).X∼Γ(α,θ). X的概率密度为
X的概率密度为
f(x)={1θαΓ(α)xα−1e−x/θ,x>0,0, 其他.f(x)=\begin{cases} \dfrac{1}{\theta^\alpha\Gamma(\alpha)}x^{\alpha-1}e^{-x/\theta}, x>0,\\\\ 0, ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~其他. \end{cases}f(x)=⎩⎪⎪⎨⎪⎪⎧θαΓ(α)1xα−1e−x/θ,x>0,0, 其他.
其中α>0\alpha>0α>0(形状参数), θ>0.\theta>0.θ>0.(尺度参数) Γ(x)=2∫0+∞t2x−1e−t2dt.\Gamma(x)=2\int_{0}^{+\infty}t^{2x-1}e^{-t^2}dt.Γ(x)=2∫0+∞t2x−1e−t2dt.
可加性:设X∼Γ(α,θ)X\sim\Gamma(\alpha,\theta)X∼Γ(α,θ),Y∼Γ(β,θ).Y\sim\Gamma(\beta,\theta).Y∼Γ(β,θ). 则X+Y∼Γ(α+β,θ).X+Y\sim\Gamma(\alpha+\beta,\theta).X+Y∼Γ(α+β,θ).
Xi2∼χ2(1)X_i^2\sim\chi^2(1)Xi2∼χ2(1),即Xi2∼Γ(12,2)X_i^2\sim\Gamma(\dfrac{1}{2},2)Xi2∼Γ(21,2),由Γ\GammaΓ分布的可加性χ2=∑i=1nXi2∼Γ(n2,2).\chi^2=\sum\limits_{i=1}^{n}X_i^2\sim\Gamma(\dfrac{n}{2},2).χ2=i=1∑nXi2∼Γ(2n,2). 其中Xi2X_i^2Xi2相互独立。
χ2\chi^2χ2分布的可加性: 设χ12∼χ2(n1)\chi_1^2\sim\chi^2(n_1)χ12∼χ2(n1),χ22∼χ2(n2)\chi_2^2\sim\chi^2(n_2)χ22∼χ2(n2),并且χ12\chi_1^2χ12,χ22\chi_2^2χ22相互独立,则有χ12+χ22∼χ2(n1+n2)\chi_1^2+\chi_2^2\sim\chi^2(n_1+n_2)χ12+χ22∼χ2(n1+n2)
χ2\chi^2χ2分布的数学期望和方差: 若χ2∼χ2(n)\chi^2\sim\chi^2(n)χ2∼χ2(n),则有E(χ2)=nE(\chi^2)=nE(χ2)=n,D(χ2)=2nD(\chi^2)=2nD(χ2)=2n.
χ2\chi^2χ2分布的上分位点: 对于给定的正数α, 0<α<1\alpha,~0<\alpha<1α, 0<α<1,满足条件
P{χ2>χα2(n)}=∫χα2(n)∞f(y)dy=αP\{\chi^2>\chi_\alpha^2(n)\}=\int_{\chi_\alpha^2(n)}^{\infty}f(y)dy=\alphaP{χ2>χα2(n)}=∫χα2(n)∞f(y)dy=α
的点χα2(n)\chi_\alpha^2(n)χα2(n)就是χ2(n)\chi^2(n)χ2(n)分布的上α\alphaα分位点。
当n充分大时(n>40),近似地有χα2(n)≈12(zα+2n−1)2\chi_\alpha^2(n)\approx\dfrac{1}{2}(z_\alpha+\sqrt{2n-1})^2χα2(n)≈21(zα+2n−1)2,其中zαz_\alphazα是标准正态分布的上α\alphaα分位点。
(二)t分布
设X∼N(0,1)X\sim N(0,1)X∼N(0,1),Y∼χ2(n)Y\sim \chi^2(n)Y∼χ2(n),且X,Y相互独立,则称随机变量
t=XY/nt=\dfrac{X}{\sqrt{Y/n}}t=Y/nX
服从自由度为n的t分布,记为t∼t(n)t\sim t(n)t∼t(n)。
t分布又称学生氏分布,t(n)分布的概率密度为
h(t)=Γ[(n+2)/2]πnΓ(n/2)(1+t2n)−(n+1)/2,−∞<t<∞h(t)=\dfrac{\Gamma[(n+2)/2]}{\sqrt{\pi n}\Gamma(n/2)}(1+\dfrac{t^2}{n})^{-(n+1)/2}, -\infty<t<\inftyh(t)=πnΓ(n/2)Γ[(n+2)/2](1+nt2)−(n+1)/2,−∞<t<∞
h(t)的图形关于t=0对称。
当n足够大时t分布近似于N(0,1)分布。
t分布的上分位点: 对于给定的正数α, 0<α<1\alpha,~0<\alpha<1α, 0<α<1,满足条件
P{t>tα(n)}=∫tα(n)∞h(t)dt=αP\{t>t_\alpha(n)\}=\int_{t_\alpha(n)}^{\infty}h(t)dt=\alphaP{t>tα(n)}=∫tα(n)∞h(t)dt=α
的点tα(n)t_\alpha(n)tα(n)就是t(n)t(n)t(n)分布的上α\alphaα分位点。
由h(t)的图形关于t=0对称知
t1−α(n)=−tα(n)t_{1-\alpha}(n)=-t_\alpha(n)t1−α(n)=−tα(n)
(三)F分布
设U∼χ2(n1)U\sim \chi^2(n_1)U∼χ2(n1),V∼χ2(n2)V\sim \chi^2(n_2)V∼χ2(n2),且U,V相互独立,则称随机变量
F=U/n1V/n2F=\dfrac{U/n1}{V/n2}F=V/n2U/n1
服从自由度为(n1, n2)的F分布,记为F∼F(n1,n2)F\sim F(n_1,n_2)F∼F(n1,n2)。
F(n1,n2)分布的概率密度为
ψ(y)={Γ[(n1+n2)/2](n1/n2)n1/2yn1/2−1Γ(n1/2)Γ(n2/2)[1+(n1y/n2)](n1+n2)/2,y>0,0, 其他.\psi(y)=\begin{cases}
\dfrac{\Gamma[(n_1+n_2)/2](n_1/n_2)^{n_1/2}y^{n_1/2-1}}{\Gamma(n_1/2)\Gamma(n_2/2)[1+(n_1y/n_2)]^{(n_1+n_2)/2}}, y>0,\\\\
0, ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~其他.
\end{cases}ψ(y)=⎩⎪⎪⎪⎨⎪⎪⎪⎧Γ(n1/2)Γ(n2/2)[1+(n1y/n2)](n1+n2)/2Γ[(n1+n2)/2](n1/n2)n1/2yn1/2−1,y>0,0, 其他.
由定义可知,若F∼F(n1,n2)F\sim F(n_1,n_2)F∼F(n1,n2),则1F∼F(n2,n1)\dfrac{1}{F}\sim F(n_2,n_1)F1∼F(n2,n1).
F分布的上分位点: 对于给定的正数α, 0<α<1\alpha,~0<\alpha<1α, 0<α<1,满足条件
P{F>Fα(n1,n2)}=∫Fα(n1,n2)∞ψ(y)dy=αP\{F>F_\alpha(n_1,n_2)\}=\int_{F_\alpha(n_1,n_2)}^{\infty}\psi(y)dy=\alphaP{F>Fα(n1,n2)}=∫Fα(n1,n2)∞ψ(y)dy=α
的点Fα(n1,n2)F_\alpha(n_1,n_2)Fα(n1,n2)就是F(n1,n2)F(n_1,n_2)F(n1,n2)分布的上α\alphaα分位点。
F分布的上α\alphaα分位点有如下重要性质:F1−α=1F(n2,n1)F_{1-\alpha}=\dfrac{1}{F(n_2,n_1)}F1−α=F(n2,n1)1
(四)正态总体的样本均值与样本方差的分布
设总体X(不管什么分布)的均值为μ\muμ,方差为σ2\sigma^2σ2,X1, X2, …, Xn 是来自X的一个样本,X‾\overline{X}X,S2S^2S2分别是样本均值和样本方差,则有E(X‾)=μE(\overline{X})=\muE(X)=μ,D(X‾)=σ2/nD(\overline{X})=\sigma^2/nD(X)=σ2/n,E(S2)=σ2E(S^2)=\sigma^2E(S2)=σ2.
定理一: 设X1, X2, …, Xn 是来自正态总体N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)的样本,X‾\overline{X}X是样本均值,则有X‾∼N(μ,σ2/n).\overline{X}\sim N(\mu,\sigma^2/n).X∼N(μ,σ2/n).
定理二: 设X1, X2, …, Xn 是来自正态总体N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)的样本,X‾\overline{X}X,S2S^2S2分别是样本均值和样本方差,则有
1.(n−1)S2σ2∼χ2(n−1)\dfrac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)σ2(n−1)S2∼χ2(n−1)
2.X‾\overline{X}X与S2S^2S2相互独立
定理三: 设X1, X2, …, Xn 是来自正态总体N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)的样本,X‾\overline{X}X,S2S^2S2分别是样本均值和样本方差,则有
X‾−μS/n∼t(n−1)\dfrac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)S/nX−μ∼t(n−1)
定理四: 设X1, X2, …, Xn1 与Y1, Y2, …, Yn1 分别是来自正态总体N(μ1,σ12)N(\mu_1,\sigma_1^2)N(μ1,σ12)和N(μ2,σ22)N(\mu_2,\sigma_2^2)N(μ2,σ22)的样本,且这两个样本相互独立。设X‾=1n1∑i=1n1Xi\overline{X}=\dfrac{1}{n_1}\sum\limits_{i=1}^{n_1}X_iX=n11i=1∑n1Xi,Y‾=1n2∑i=1n2Yi\overline{Y}=\dfrac{1}{n_2}\sum\limits_{i=1}^{n_2}Y_iY=n21i=1∑n2Yi分别是这两个样本的样本均值;S12=1n1−1∑i=1n1(Xi−X‾)2S_1^2=\dfrac{1}{n_1-1}\sum\limits_{i=1}^{n_1}(X_i-\overline{X})^2S12=n1−11i=1∑n1(Xi−X)2,S22=1n2−1∑i=1n2(Yi−Y‾)2S_2^2=\dfrac{1}{n_2-1}\sum\limits_{i=1}^{n_2}(Y_i-\overline{Y})^2S22=n2−11i=1∑n2(Yi−Y)2分别是这两个样本的样本方差,则有
1.S12/S22σ12/σ22∼F(n1−1,n2−1)\dfrac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1)σ12/σ22S12/S22∼F(n1−1,n2−1)
2.当σ12=σ22=σ2\sigma_1^2=\sigma_2^2=\sigma^2σ12=σ22=σ2时,
(X‾−Y‾)−(μ1−μ2)Sw1n1+1n2∼t(n1+n2−2),\dfrac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}}\sim t(n_1+n_2-2),Swn11+n21(X−Y)−(μ1−μ2)∼t(n1+n2−2),
其中Sw2=(n1−1)S12+(n2−1)S22n1+n2−2,Sw=Sw2.S_w^2=\dfrac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}, S_w=\sqrt{S_w^2}.Sw2=n1+n2−2(n1−1)S12+(n2−1)S22,Sw=Sw2.