t分布

t分布与统计检验

t分布

如果有一点点的统计学基础都知道,t分布和χ2\chi^2χ2分布有着密不可分的联系,t随机变量的构造是基于χ2\chi^2χ2随机变量的。

设随机变量X1X_1X1X2X_2X2独立,X1∼N(0,1)X_1\sim N(0,1)X1N(0,1), X2∼χ2(n)X_2\sim \chi^2(n)X2χ2(n), 则t=X1X2/n∼t(n)t=\frac{X_1}{\sqrt{X_2/n}}\sim t(n)t=X2/nX1t(n).

已经知道χ2\chi^2χ2分布是GammaGammaGamma分布的特例,那么 ttt 的密度函数一定也是与Γ\GammaΓ函数密切相关的,通过令t2=F(1,n)t^2=F(1,n)t2=F(1,n)以及根据 ttt分布的对称性,可以求出 ttt 的密度函数, 求 ttt 密度函数的过程如下:
P(0&lt;t&lt;y)=12P(t2&lt;y2)=12P(F&lt;y2)P(0&lt;t&lt;y)=\frac{1}{2}P({t^2}&lt;{y^2})=\frac{1}{2}P(F&lt;y^2)P(0<t<y)=21P(t2<y2)=21P(F<y2)两边求导,得ft(y)=yfF(y2).f_t(y)=yf_F(y^2).ft(y)=yfF(y2).

1 n(x‾−μ)s\frac{\sqrt n(\overline{x}-\mu)}{s}sn(xμ)服从ttt分布

ttt分布的峰比标准正态分布略低一些,尾部比标准正态分布的大一些。是由英国统计学家Gosset发现,由Fisher完善的。当数据量很大时,根据中心极限定理,总是可以将统计量归结到正态分布。但当数据量较小时,就与正态分布产生偏差。Gosset发现n(x‾−μ)s\frac{\sqrt n(\overline{x}-\mu)}{s}sn(xμ)并不是完全服从正态分布的,而是服从一种全新的分布 – ttt分布。由于上面已经介绍了ttt分布的定义,下面证明统计量n(x‾−μ)s\frac{\sqrt n(\overline{x}-\mu)}{s}sn(xμ)服从ttt分布。

x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn是来自总体N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)的样本,s2s^2s2是样本标准差,则有:(n−1)s2σ2∼χ2(n−1).\frac{(n-1)s^2}{\sigma^2}\sim\chi^2(n-1).σ2(n1)s2χ2(n1).
构造一个矩阵AAA,将(x1,x2,...,xn)(x_1,x_2,...,x_n)(x1,x2,...,xn)正交变换为(y1,y2,...,yn)(y_1,y_2,...,y_n)(y1,y2,...,yn),即:

Y=(y1,y2,...,yn)′=A(x1,x2,...,xn)′=AXY=(y_1,y_2,...,y_n)&#x27;=A(x_1,x_2,...,x_n)&#x27;=AXY=(y1,y2,...,yn)=A(x1,x2,...,xn)=AX

A=(1n1n1n...1n12⋅1−12⋅10...013⋅213⋅2−23⋅2...0⋮⋮⋮⋮⋮1n⋅(n−1)1n⋅(n−1)1n⋅(n−1)...−n−1n⋅(n−1))n×nA =\left( \begin{array}{} \frac{1}{\sqrt n}&amp; \frac{1}{\sqrt n}&amp; \frac{1}{\sqrt n}&amp;...&amp;\frac{1}{\sqrt n} \\ \frac{1}{\sqrt{2\cdot1}}&amp; -\frac{1}{\sqrt{2\cdot1}} &amp; 0&amp;...&amp;0 \\ \frac{1}{\sqrt{3\cdot2}}&amp; \frac{1}{\sqrt{3\cdot2}} &amp;- \frac{2}{\sqrt{3\cdot2}}&amp;...&amp;0\\ \vdots&amp;\vdots&amp;\vdots&amp;\vdots&amp;\vdots\\ \frac{1}{\sqrt{n\cdot(n-1)}}&amp;\frac{1}{\sqrt{n\cdot(n-1)}}&amp;\frac{1}{\sqrt{n\cdot(n-1)}}&amp;...&amp;-\frac{n-1}{\sqrt{n\cdot(n-1)}}\\ \end{array} \right)_{n\times n}A=n1211321n(n1)1n1211321n(n1)1n10322n(n1)1............n100n(n1)n1n×n
则有y1=1n∑i=0nxiy_1=\frac{1}{\sqrt{n}}\sum\limits_{i=0}^nx_iy1=n1i=0nxi,即x‾=1ny1\overline{x}=\frac{1}{\sqrt{n}}y_1x=n1y1,所以有:
(n−1)s2=∑i=0n(xi−x‾)2=∑i=1nxi2−nx‾2=X′X−y12(n-1)s^2=\sum\limits_{i=0}^n(x_i-\overline{x})^2 =\sum\limits_{i=1}^nx_i^2-n\overline{x}^2 =X&#x27;X-y_1^2(n1)s2=i=0n(xix)2=i=1nxi2nx2=XXy12       =X′A′AX−y12=Y′Y−y12=∑i=2nyi2~~~~~~~=X&#x27;A&#x27;AX-y_1^2 =Y&#x27;Y-y_1^2 =\sum\limits_{i=2}^ny_i^2       =XAAXy12=YYy12=i=2nyi2
由于x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn均服从N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)y1,y2,...,yny_1,y_2,...,y_ny1,y2,...,ynx1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn的线性组合,所以y1,y2,...,yny_1,y_2,...,y_ny1,y2,...,yn也服从正态分布,其中 y1∼N(nμ,σ2)y_1\sim N(\sqrt{n}\mu,\sigma^2)y1N(nμ,σ2)y2,...,yn∼N(0,σ2)y_2,...,y_n\sim N(0,\sigma^2)y2,...,ynN(0,σ2), 根据多元正态分布的密度函数表达式容易得出y2,...,yny_2,...,y_ny2,...,yn也是互相独立的。可得:
(n−1)s2σ2=∑i=2n(yiσ)2∼χ2(n−1).\frac{(n-1)s^2}{\sigma^2}=\sum\limits_{i=2}^n(\frac{y_i}{\sigma})^2\sim\chi^2(n-1).σ2(n1)s2=i=2n(σyi)2χ2(n1).
又由于x‾\overline{x}xs2s^2s2独立 (x‾\overline{x}x只与y1y_1y1有关,s2s^2s2只与y2,...,yny_2,...,y_ny2,...,yn有关),则:

n(x‾−μ)s=x‾−μσ/n(n−1)s2/σ2n−1∼t(n−1)\frac{\sqrt n(\overline{x}-\mu)}{s}=\frac{{\frac{\overline{x}-\mu}{\sigma/\sqrt{n}}}} {\sqrt{\frac{{(n-1)s^2}/{\sigma^2}}{n-1}}}\sim t(n-1)sn(xμ)=n1(n1)s2/σ2σ/nxμt(n1)
证明完毕。

2 比较期望的t检验

在正态总体的参数假设检验中,t检验是经常使用的一种检验方法,使用t检验可以

  • 检验总体期望与某一个常数是否有显著差异(样本均数与总体均数的比较)
  • 检验两个独立总体的总体期望是否有显著差异(两独立样本均数的比较)
  • 检验两个相关总体的总体期望是否有显著差异(两相关样本均数的比较)

下面用两独立样本均数的比较做例子解释一下统计量n(x‾−μ)s\frac{\sqrt n(\overline{x}-\mu)}{s}sn(xμ)的应用。

口服多糖铁复合物是治疗肾性贫血的传统方法,为研究右旋糖酐氢氧化铁注射液在治疗肾性贫血的效果,选择血红蛋白水平相似的患者随机分为口服多糖铁复合物组和静脉注射右旋糖酐氢氧化铁组,每组分别n1,n2n_1,n_2n1,n2个人,在接受治疗后,收集每个患者血红蛋白含量的增值。口服多糖铁复合物组患者的血红蛋白含量的增值记为 (x1,x2,...,xn1x_1,x_2,...,x_{n_1}x1,x2,...,xn1);静脉注射右旋糖酐氢氧化铁组患者的血红蛋白含量的增值记为 (y1,y2,...,yn2)(y_1,y_2,...,y_{n_2})(y1,y2,...,yn2)

可以把(x1,x2,...,xn1x_1,x_2,...,x_{n_1}x1,x2,...,xn1)看作来自总体XXX,把(y1,y2,...,yn2)(y_1,y_2,...,y_{n_2})(y1,y2,...,yn2)看作来自总体YYY, 即:

X∼N(μ1,σ2)     Y∼N(μ2,σ2)X\sim N(\mu_1,\sigma^2)~~~~~Y\sim N(\mu_2,\sigma^2)XN(μ1,σ2)     YN(μ2,σ2)

从而有:

x‾∼N(μ1,σ2n1)       y‾∼N(μ2,σ2n2)\overline{x}\sim N(\mu_1,\frac{\sigma^2}{n_1})~~~~~~~\overline{y}\sim N(\mu_2,\frac{\sigma^2}{n_2})xN(μ1,n1σ2)       yN(μ2,n2σ2)

由于服从正态分布的随机变量的线性组合也服从正态分布,所以有:

x‾−y‾∼N(μ1−μ2,σ2n1+σ2n2)\overline{x}-\overline{y}\sim N(\mu_1-\mu_2,\frac{\sigma^2}{n_1}+\frac{\sigma^2}{n_2})xyN(μ1μ2,n1σ2+n2σ2)
即:
x‾−y‾−(μ1−μ2)σ1n1+1n2∼N(0,1)\frac{\overline{x}-\overline{y}-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim N(0,1)σn11+n21xy(μ1μ2)N(0,1)
构造统计量n(x‾−μ)s\frac{\sqrt n(\overline{x}-\mu)}{s}sn(xμ)

(n1−1)s12σ2+(n2−1)s22σ2∼χ2(n1+n2−2)\frac{(n_1-1)s_1^2}{\sigma^2}+\frac{(n_2-1)s_2^2}{\sigma^2}\sim\chi^2(n_1+n_2-2)σ2(n11)s12+σ2(n21)s22χ2(n1+n22)
x‾−y‾−(μ1−μ2)σ1n1+1n2(n1−1)s12σ2+(n2−1)s22σ2(n1+n2−2)=x‾−y‾−(μ1−μ2)1n1+1n2(n1−1)s12+(n2−1)s22(n1+n2−2)\frac{\frac{\overline{x}-\overline{y}-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}} {\sqrt{\frac{\frac{(n_1-1)s_1^2}{\sigma^2}+\frac{(n_2-1)s_2^2}{\sigma^2}}{(n_1+n_2-2)}}}= \frac{\frac{\overline{x}-\overline{y}-(\mu_1-\mu_2)}{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}} {\sqrt{\frac{{(n_1-1)s_1^2}+{(n_2-1)s_2^2}}{(n_1+n_2-2)}}}(n1+n22)σ2(n11)s12+σ2(n21)s22σn11+n21xy(μ1μ2)=(n1+n22)(n11)s12+(n21)s22n11+n21xy(μ1μ2)
=x‾−y‾−(μ1−μ2)∑i=1n1(xi−x‾)2+∑i=1n2(yi−y‾)2(n1+n2−2)1n1+1n2                =\frac{{\overline{x}-\overline{y}-(\mu_1-\mu_2)}} {\sqrt{\frac{\sum_{i=1}^{n_1}(x_i-\overline x)^2+\sum_{i=1}^{n_2}(y_i-\overline{y})^2}{(n_1+n_2-2)}} {\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}} ~~~~~~~~~~~~~~~=(n1+n22)i=1n1(xix)2+i=1n2(yiy)2n11+n21xy(μ1μ2)               
=x‾−y‾−(μ1−μ2)sc2(1n1+1n2)∼t(n1+n2−2)              =\frac{{\overline{x}-\overline{y}-(\mu_1-\mu_2)}} { {\sqrt{s_c^2(\frac{1}{n_1}+\frac{1}{n_2})}}}\sim t(n_1+n_2-2)~~~~~~~~~~~~~=sc2(n11+n21)xy(μ1μ2)t(n1+n22)             

3 线性模型中单个变量的显著性检验

多元线性模型 (p个变量,n个样本) 的表达式为:
Yi=βTxi+ϵiY_i=\beta^T x_i+\epsilon_iYi=βTxi+ϵi
在这里将YiY_iYiϵi\epsilon_iϵi视为随机变量
E(Yi)=E(Yi∣xi)=βTxi=μiE(Y_i)=E(Y_i|x_i)=\beta^T x_i=\mu_iE(Yi)=E(Yixi)=βTxi=μi
即:
Yi=μi+ϵiY_i=\mu_i+\epsilon_iYi=μi+ϵi

Xn×(p+1)X_{n\times (p+1)}Xn×(p+1)为样本阵,则有:
Y=Xβ+ϵ=μ+ϵY=X\beta+\epsilon=\mu+\epsilonY=Xβ+ϵ=μ+ϵ
再使用最小化残差平方和的方法求β^\hat\betaβ^:
β^=(XTX)−1XTY\hat\beta=(X^TX)^{-1}X^TYβ^=(XTX)1XTY
然后有:
Y^=μ^=Xβ^=Xβ^=X(XTX)−1XTY=HY\hat Y=\hat \mu=X\hat\beta=X\hat\beta=X(X^TX)^{-1}X^TY=HYY^=μ^=Xβ^=Xβ^=X(XTX)1XTY=HY
HHH是对称阵,也是幂等阵,且tr(H)=tr(X(XTX)−1XT)=p+1,tr(H)=tr(X(X^TX)^{-1}X^T)=p+1,tr(H)=tr(X(XTX)1XT)=p+1H=(hij)H=(h_{ij})H=(hij)

e=Y−Y^=(I−H)Y,ei=Yi−Y^i,e=Y-\hat Y=(I-H)Y,e_i=Y_i-\hat Y_i,e=YY^=(IH)Yei=YiY^i 所以:
E(σ2^)=E(1n−p−1∑i=1nei2)=1n−p−1∑i=1n((Eei)2+Dei)E(\hat{\sigma^2})=E(\frac{1}{n-p-1}\sum\limits_{i=1}^{n}e_i^2)=\frac{1}{n-p-1}\sum\limits_{i=1}^{n}((Ee_i)^2+De_i)E(σ2^)=E(np11i=1nei2)=np11i=1n((Eei)2+Dei)
                  =1n−p−1∑i=1n(1−hii)σ2=1n−p−1(n−(p+1))σ2=σ2~~~~~~~~~~~~~~~~~~=\frac{1}{n-p-1}\sum\limits_{i=1}^{n}(1-h_{ii})\sigma^2=\frac{1}{n-p-1}(n-(p+1))\sigma^2=\sigma^2                  =np11i=1n(1hii)σ2=np11(n(p+1))σ2=σ2
σ2^=1n−p−1∑i=1nei2\hat{\sigma^2}=\frac{1}{n-p-1}\sum\limits_{i=1}^{n}e_i^2σ2^=np11i=1nei2σ2\sigma^2σ2 的无偏估计。

假定ϵ∼N(0,Σ0)    Σ0=(σ20...00σ2...0⋮⋮⋮⋮00...σ2)\epsilon\sim N(0,\Sigma_0)~~~~\Sigma_0=\left( \begin{array}{ccc} \sigma^2 &amp; 0 &amp; ...&amp;0 \\ 0 &amp; \sigma^2 &amp; ...&amp;0 \\ \vdots &amp; \vdots &amp;\vdots&amp;\vdots\\ 0 &amp; 0 &amp; ...&amp;\sigma^2 \\ \end{array} \right)ϵN(0,Σ0)    Σ0=σ2000σ20.........00σ2, 则Y∼N(μ,Σ0)Y\sim N(\mu,\Sigma_0)YN(μ,Σ0). 然后有:

E(β^)=βE(\hat\beta)=\betaE(β^)=β
D(β^)=D((XTX)−1XTY)=(XTX)−1XTD(Y)X(XTX)−1=σ2(XTX)−1D(\hat\beta)=D((X^TX)^{-1}X^TY)=(X^TX)^{-1}X^TD(Y)X(X^TX)^{-1}=\sigma^2(X^TX)^{-1}D(β^)=D((XTX)1XTY)=(XTX)1XTD(Y)X(XTX)1=σ2(XTX)1
又因为 β^\hat\betaβ^YiY_iYi 的线性组合,所以:
β^∼N(β,σ2(XTX)−1)\hat\beta\sim N(\beta,\sigma^2(X^TX)^{-1})β^N(β,σ2(XTX)1)
再记 (XTX)−1=(kij),(X^TX)^{-1}=(k_{ij}),(XTX)1=(kij), 所以有:
β^i∼N(βi,σ2kii)\hat\beta_i\sim N(\beta_i,\sigma^2k_{ii})β^iN(βi,σ2kii)
βi\beta_iβi进行显著性检验,原假设为系数βi\beta_iβi不显著,即:
H0:βi=0H_0:\beta_i=0H0:βi=0
σ^=σ2^\hat\sigma=\sqrt{\hat{\sigma^2}}σ^=σ2^,在原假设成立的条件下,就可以构造ttt统计量:
ti=β^ikiiσ^∼t(n−p−1)t_i=\frac{\hat\beta_i}{\sqrt{k_{ii}}\hat\sigma}\sim t(n-p-1)ti=kiiσ^β^it(np1)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值