概率论小结6

本文详细介绍了概率论中的样本和抽样分布概念,包括随机样本的定义、箱线图的绘制与解读,以及抽样分布中的统计量如样本平均值、方差等,并探讨了正态总体的χ2、t、F分布及其在样本均值与方差中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

样本及抽样分布

一、随机样本

定义:X是具有分布函数F的随机变量,若X1, X2, …, Xn 是具有同一分布函数F的、相互独立的随机变量,则称X1, X2, …, Xn 为从分布函数F(或总体F、或总体X)得到的容量为n的简单随机样本,简称样本,它们的观察值x1, x2, …, xn 称为样本值,又称为X的n个独立的观察值

试验全部可能的观察值称为总体。一个总体对应于一个随机变量X。每一个可能的观察值称为个体。总体中所包含的个体的个数称为总体的容量

二、箱线图

分位数: 设有容量为n的样本观察值x1, x2, …, xn 样本p分位数(0<p<1)记为xp,它具有以下的性质:(1)至少有np个观察值小于或等于xp;(2)至少有n(1-p)个观察值大于或等于xp
xp={x([np]+1),当np不是整数12[x(np)+x(np+1)],当np是整数x_p=\begin{cases} x_{([np]+1)}, 当np不是整数\\\\ \dfrac{1}{2}[x_{(np)}+x_{(np+1)}], 当np是整数 \end{cases}xp=x([np]+1),np21[x(np)+x(np+1)],np

0.25分位数x0.25称为第一四分位数,又记为Q1;0.5分位数x0.5称为样本中位数,又记为Q2或M;0.75分位数x0.75称为第三四分位数,又记为Q3

箱线图:
箱线图如下所示
在这里插入图片描述
从箱线图可以看出:
1.中心位置:中位数所在位置就是数据集的中心。
2.散布程度:全部数据都落在[Min,Max]之内,在区间[Min,Q1],[Q1,M],[M,Q3],[Q3,Max]的数据个数各约占1/4. 区间较短时,表示落在该区间的点较集中,反之较为分散。
3.关于对称性:若中位数位于箱子的中间位置,则数据分布较为对称。又若Min离M的距离较Max离M的距离大,则表示数据分布向左倾斜,反之表示数据向右倾斜,且能看出分布尾部的长短。

疑似异常值: 在数据集中某一观察值不寻常地大于或小于该数据集中的其他数据,称为疑似异常值
Q1与Q3之间的距离Q3-Q1=记为\xlongequal{记为}IQR,称为四分位数间距。若数据小于Q1-1.5IQR或大于Q3+1.5IQR,就认为它是疑似异常值。

修正箱线图: 画出疑似异常值并以∗*表示。自箱子左侧引一水平线段直至数据集中除去疑似异常值后的最小值,又自箱子右侧引一水平线直至数据集中除去疑似异常值后的最大值。
在这里插入图片描述

三、抽样分布

统计量:X1, X2, …, Xn 是来自总体X的一个样本,g(X1, X2, …, Xn )是X1, X2, …, Xn 的函数,若g中不含未知参数,则称g(X1, X2, …, Xn )是一个统计量
几个常用的统计量:
样本平均值:X‾=1n∑i=1nXi\overline{X}=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_iX=n1i=1nXi
样本方差:S2=1n−1∑i=1n(Xi−X‾)2=1n−1∑i=1n(Xi2−nX‾2)S^2=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i^2-n\overline{X}^2)S2=n11i=1n(XiX)2=n11i=1n(Xi2nX2)
样本标准差:S=S2=1n−1∑i=1n(Xi−X‾)2S=\sqrt{\smash[b]{S^2}}=\sqrt{\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2}S=S2=n11i=1n(XiX)2
样本k阶(原点)距:Ak=1n∑i=1nXikA_k=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i^kAk=n1i=1nXik, k=1,2,…
样本k阶中心距:Bk=1n∑i=1n(Xi−X‾)kB_k=\dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X})^kBk=n1i=1n(XiX)k, k=2,3,…

经验分布函数:设X1, X2, …, Xn 是来自总体分布函数F(x)的一个样本,用S(x),−∞&lt;x&lt;∞-\infty&lt;x&lt;\infty<x<表示X1, X2, …, Xn 中不大于x的随机变量的个数。定义经验分布函数Fn(x)为
Fn(x)=1nS(x),−∞&lt;x&lt;∞.F_n(x)=\dfrac{1}{n}S(x), -\infty&lt;x&lt;\infty.Fn(x)=n1S(x),<x<.
经验分布函数Fn(x)的观察值为
Fn(x)={0,若x&lt;x(1),kn,若x(k)⩽x&lt;x(k+1),k=1,2,...,n−1,1,若x⩾x(n).F_n(x)=\begin{cases} 0, 若x&lt;x_{(1)},\\\\ \dfrac{k}{n}, 若x_{(k)}\leqslant x&lt;x_{(k+1)}, k=1,2,...,n-1,\\\\ 1, 若x\geqslant x_{(n)}. \end{cases}Fn(x)=0,x<x(1),nk,x(k)x<x(k+1),k=1,2,...,n1,1,xx(n).
其中样本x1, x2, …, xn 从小到大排序并重新编号为x(1)⩽x(2)⩽...⩽x(n)x_{(1)}\leqslant x_{(2)}\leqslant...\leqslant x_{(n)}x(1)x(2)...x(n).
经验分布函数Fn(x),对于任一实数x,当n→∞n\to\inftyn时Fn(x)以概率1一致收敛于分布函数F(x),即P{lim⁡n→∞sup⁡−∞&lt;x&lt;∞∣Fn(x)−F(x)∣=0}=1.P\{\lim\limits_{n\to\infty} \sup\limits_{-\infty&lt;x&lt;\infty}|F_n(x)-F(x)|=0 \}=1.P{nlim<x<supFn(x)F(x)=0}=1.因此,对于任一实数x当n充分大时,经验分布函数的任一观察值Fn(x)与总体分布函数F(x)只有微小的差别,从而在实际上可当作F(x)来使用。

抽样分布: 统计量的分布称为抽样分布
来自正态总体的几个常用的统计量的分布。
(一)χ2\chi^2χ2分布
X1, X2, …, Xn 是来自总体N(0,1)的样本,则称统计量
χ2=X12+X22+...+Xn2\chi^2=X_1^2+X_2^2+...+X_n^2χ2=X12+X22+...+Xn2
服从自由度为n的χ2\chi^2χ2分布,记为χ2∼χ2(n).\chi^2\sim\chi^2(n).χ2χ2(n). 自由度是指上式右端包含的独立变量的个数。
χ2(n)\chi^2(n)χ2(n)的概率密度为
f(y)={12n/2Γ(n/2)yn/2−1e−y/2,y&gt;0,0,                                     其他.f(y)=\begin{cases} \dfrac{1}{2^{n/2}\Gamma(n/2)}y^{n/2-1}e^{-y/2}, y&gt;0,\\\\ 0, ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~其他. \end{cases}f(y)=2n/2Γ(n/2)1yn/21ey/2,y>0,0,                                     .

补充:
X服从Γ\GammaΓ分布,记为X∼Γ(α,θ).X\sim\Gamma(\alpha,\theta).XΓ(α,θ). X的概率密度为
X的概率密度为
f(x)={1θαΓ(α)xα−1e−x/θ,x&gt;0,0,                                     其他.f(x)=\begin{cases} \dfrac{1}{\theta^\alpha\Gamma(\alpha)}x^{\alpha-1}e^{-x/\theta}, x&gt;0,\\\\ 0, ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~其他. \end{cases}f(x)=θαΓ(α)1xα1ex/θ,x>0,0,                                     .
其中α&gt;0\alpha&gt;0α>0(形状参数), θ&gt;0.\theta&gt;0.θ>0.(尺度参数) Γ(x)=2∫0+∞t2x−1e−t2dt.\Gamma(x)=2\int_{0}^{+\infty}t^{2x-1}e^{-t^2}dt.Γ(x)=20+t2x1et2dt.
可加性:设X∼Γ(α,θ)X\sim\Gamma(\alpha,\theta)XΓ(α,θ)Y∼Γ(β,θ).Y\sim\Gamma(\beta,\theta).YΓ(β,θ).X+Y∼Γ(α+β,θ).X+Y\sim\Gamma(\alpha+\beta,\theta).X+YΓ(α+β,θ).

Xi2∼χ2(1)X_i^2\sim\chi^2(1)Xi2χ2(1),即Xi2∼Γ(12,2)X_i^2\sim\Gamma(\dfrac{1}{2},2)Xi2Γ(21,2),由Γ\GammaΓ分布的可加性χ2=∑i=1nXi2∼Γ(n2,2).\chi^2=\sum\limits_{i=1}^{n}X_i^2\sim\Gamma(\dfrac{n}{2},2).χ2=i=1nXi2Γ(2n,2). 其中Xi2X_i^2Xi2相互独立。

χ2\chi^2χ2分布的可加性:χ12∼χ2(n1)\chi_1^2\sim\chi^2(n_1)χ12χ2(n1)χ22∼χ2(n2)\chi_2^2\sim\chi^2(n_2)χ22χ2(n2),并且χ12\chi_1^2χ12χ22\chi_2^2χ22相互独立,则有χ12+χ22∼χ2(n1+n2)\chi_1^2+\chi_2^2\sim\chi^2(n_1+n_2)χ12+χ22χ2(n1+n2)

χ2\chi^2χ2分布的数学期望和方差:χ2∼χ2(n)\chi^2\sim\chi^2(n)χ2χ2(n),则有E(χ2)=nE(\chi^2)=nE(χ2)=nD(χ2)=2nD(\chi^2)=2nD(χ2)=2n.

χ2\chi^2χ2分布的上分位点: 对于给定的正数α, 0&lt;α&lt;1\alpha,~0&lt;\alpha&lt;1α, 0<α<1,满足条件
P{χ2&gt;χα2(n)}=∫χα2(n)∞f(y)dy=αP\{\chi^2&gt;\chi_\alpha^2(n)\}=\int_{\chi_\alpha^2(n)}^{\infty}f(y)dy=\alphaP{χ2>χα2(n)}=χα2(n)f(y)dy=α
的点χα2(n)\chi_\alpha^2(n)χα2(n)就是χ2(n)\chi^2(n)χ2(n)分布的上α\alphaα分位点。
当n充分大时(n>40),近似地有χα2(n)≈12(zα+2n−1)2\chi_\alpha^2(n)\approx\dfrac{1}{2}(z_\alpha+\sqrt{2n-1})^2χα2(n)21(zα+2n1)2,其中zαz_\alphazα是标准正态分布的上α\alphaα分位点。

(二)t分布
X∼N(0,1)X\sim N(0,1)XN(0,1)Y∼χ2(n)Y\sim \chi^2(n)Yχ2(n),且X,Y相互独立,则称随机变量
t=XY/nt=\dfrac{X}{\sqrt{Y/n}}t=Y/nX
服从自由度为n的t分布,记为t∼t(n)t\sim t(n)tt(n)
t分布又称学生氏分布,t(n)分布的概率密度为
h(t)=Γ[(n+2)/2]πnΓ(n/2)(1+t2n)−(n+1)/2,−∞&lt;t&lt;∞h(t)=\dfrac{\Gamma[(n+2)/2]}{\sqrt{\pi n}\Gamma(n/2)}(1+\dfrac{t^2}{n})^{-(n+1)/2}, -\infty&lt;t&lt;\inftyh(t)=πnΓ(n/2)Γ[(n+2)/2](1+nt2)(n+1)/2,<t<
h(t)的图形关于t=0对称。
当n足够大时t分布近似于N(0,1)分布。

t分布的上分位点: 对于给定的正数α, 0&lt;α&lt;1\alpha,~0&lt;\alpha&lt;1α, 0<α<1,满足条件
P{t&gt;tα(n)}=∫tα(n)∞h(t)dt=αP\{t&gt;t_\alpha(n)\}=\int_{t_\alpha(n)}^{\infty}h(t)dt=\alphaP{t>tα(n)}=tα(n)h(t)dt=α
的点tα(n)t_\alpha(n)tα(n)就是t(n)t(n)t(n)分布的上α\alphaα分位点。
由h(t)的图形关于t=0对称知
t1−α(n)=−tα(n)t_{1-\alpha}(n)=-t_\alpha(n)t1α(n)=tα(n)

(三)F分布
U∼χ2(n1)U\sim \chi^2(n_1)Uχ2(n1)V∼χ2(n2)V\sim \chi^2(n_2)Vχ2(n2),且U,V相互独立,则称随机变量
F=U/n1V/n2F=\dfrac{U/n1}{V/n2}F=V/n2U/n1
服从自由度为(n1, n2)的F分布,记为F∼F(n1,n2)F\sim F(n_1,n_2)FF(n1,n2)
F(n1,n2)分布的概率密度为
ψ(y)={Γ[(n1+n2)/2](n1/n2)n1/2yn1/2−1Γ(n1/2)Γ(n2/2)[1+(n1y/n2)](n1+n2)/2,y&gt;0,0,                                     其他.\psi(y)=\begin{cases} \dfrac{\Gamma[(n_1+n_2)/2](n_1/n_2)^{n_1/2}y^{n_1/2-1}}{\Gamma(n_1/2)\Gamma(n_2/2)[1+(n_1y/n_2)]^{(n_1+n_2)/2}}, y&gt;0,\\\\ 0, ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~其他. \end{cases}ψ(y)=Γ(n1/2)Γ(n2/2)[1+(n1y/n2)](n1+n2)/2Γ[(n1+n2)/2](n1/n2)n1/2yn1/21,y>0,0,                                     .

由定义可知,若F∼F(n1,n2)F\sim F(n_1,n_2)FF(n1,n2),则1F∼F(n2,n1)\dfrac{1}{F}\sim F(n_2,n_1)F1F(n2,n1).

F分布的上分位点: 对于给定的正数α, 0&lt;α&lt;1\alpha,~0&lt;\alpha&lt;1α, 0<α<1,满足条件
P{F&gt;Fα(n1,n2)}=∫Fα(n1,n2)∞ψ(y)dy=αP\{F&gt;F_\alpha(n_1,n_2)\}=\int_{F_\alpha(n_1,n_2)}^{\infty}\psi(y)dy=\alphaP{F>Fα(n1,n2)}=Fα(n1,n2)ψ(y)dy=α
的点Fα(n1,n2)F_\alpha(n_1,n_2)Fα(n1,n2)就是F(n1,n2)F(n_1,n_2)F(n1,n2)分布的上α\alphaα分位点。

F分布的上α\alphaα分位点有如下重要性质:F1−α=1F(n2,n1)F_{1-\alpha}=\dfrac{1}{F(n_2,n_1)}F1α=F(n2,n1)1

(四)正态总体的样本均值与样本方差的分布
设总体X(不管什么分布)的均值为μ\muμ,方差为σ2\sigma^2σ2X1, X2, …, Xn 是来自X的一个样本,X‾\overline{X}XS2S^2S2分别是样本均值和样本方差,则有E(X‾)=μE(\overline{X})=\muE(X)=μD(X‾)=σ2/nD(\overline{X})=\sigma^2/nD(X)=σ2/nE(S2)=σ2E(S^2)=\sigma^2E(S2)=σ2.

定理一:X1, X2, …, Xn 是来自正态总体N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)的样本,X‾\overline{X}X是样本均值,则有X‾∼N(μ,σ2/n).\overline{X}\sim N(\mu,\sigma^2/n).XN(μ,σ2/n).

定理二:X1, X2, …, Xn 是来自正态总体N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)的样本,X‾\overline{X}XS2S^2S2分别是样本均值和样本方差,则有
1.(n−1)S2σ2∼χ2(n−1)\dfrac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)σ2(n1)S2χ2(n1)
2.X‾\overline{X}XS2S^2S2相互独立

定理三:X1, X2, …, Xn 是来自正态总体N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)的样本,X‾\overline{X}XS2S^2S2分别是样本均值和样本方差,则有
X‾−μS/n∼t(n−1)\dfrac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)S/nXμt(n1)

定理四:X1, X2, …, Xn1Y1, Y2, …, Yn1 分别是来自正态总体N(μ1,σ12)N(\mu_1,\sigma_1^2)N(μ1,σ12)N(μ2,σ22)N(\mu_2,\sigma_2^2)N(μ2,σ22)的样本,且这两个样本相互独立。设X‾=1n1∑i=1n1Xi\overline{X}=\dfrac{1}{n_1}\sum\limits_{i=1}^{n_1}X_iX=n11i=1n1XiY‾=1n2∑i=1n2Yi\overline{Y}=\dfrac{1}{n_2}\sum\limits_{i=1}^{n_2}Y_iY=n21i=1n2Yi分别是这两个样本的样本均值;S12=1n1−1∑i=1n1(Xi−X‾)2S_1^2=\dfrac{1}{n_1-1}\sum\limits_{i=1}^{n_1}(X_i-\overline{X})^2S12=n111i=1n1(XiX)2S22=1n2−1∑i=1n2(Yi−Y‾)2S_2^2=\dfrac{1}{n_2-1}\sum\limits_{i=1}^{n_2}(Y_i-\overline{Y})^2S22=n211i=1n2(YiY)2分别是这两个样本的样本方差,则有
1.S12/S22σ12/σ22∼F(n1−1,n2−1)\dfrac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1)σ12/σ22S12/S22F(n11,n21)
2.当σ12=σ22=σ2\sigma_1^2=\sigma_2^2=\sigma^2σ12=σ22=σ2时,
(X‾−Y‾)−(μ1−μ2)Sw1n1+1n2∼t(n1+n2−2),\dfrac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}}\sim t(n_1+n_2-2),Swn11+n21(XY)(μ1μ2)t(n1+n22),
其中Sw2=(n1−1)S12+(n2−1)S22n1+n2−2,Sw=Sw2.S_w^2=\dfrac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}, S_w=\sqrt{S_w^2}.Sw2=n1+n22(n11)S12+(n21)S22,Sw=Sw2.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值