卡方分布
1 卡方分布与伽马分布
若随机变量 χ2\chi^2χ2 服从参数为nnn的卡方分布 — χ2(n)\chi^2(n)χ2(n),则它的密度函数是:
p(x)=(12)n2Γ(n2)xn2−1e−x2 (x≥0)p(x)=\frac{({\frac{1}{2})}^{\frac{n}{2}}}{\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}~~(x\geq0)p(x)=Γ(2n)(21)2nx2n−1e−2x (x≥0)
其中:Γ(n2)=∫0+∞tn2−1e−tdt.\Gamma(\frac{n}{2})=\int^{+\infty}_0t^{\frac{n}{2}-1}e^{-t}dt.Γ(2n)=∫0+∞t2n−1e−tdt.
可以看出,χ2\chi^2χ2分布的密度函数与GammaGammaGamma分布的密度函数很相似:
f(y)={βαΓ(α)yα−1e−βy,(y≥0) 0, (y<0)f(y)=\left\{
\begin{aligned}
\frac{\beta^\alpha}{\Gamma(\alpha)}y^{\alpha-1}e^{-\beta{y}},(y\geq0)\\
~0,~~~~~~~~~~~(y<0)
\end{aligned}
\right.
f(y)=⎩⎪⎨⎪⎧Γ(α)βαyα−1e−βy,(y≥0) 0, (y<0)
其中,Γ(α)=∫0+∞tα−1e−tdt\Gamma(\alpha)=\int_0^{+\infty}t^{\alpha-1}e^{-t}dtΓ(α)=∫0+∞tα−1e−tdt.
事实上,χ2(n)\chi^2(n)χ2(n)等价于 Ga(n2,12)Ga(\frac{n}{2},\frac{1}{2})Ga(2n,21). 接下来证明这一点。
服从χ2(n)\chi^2(n)χ2(n)的随机变量χ2\chi^2χ2是nnn个独立随机变量的组合:χ2=X12+X22+...+Xn2, \chi^2=X_1^2+X_2^2+...+X_n^2,~~χ2=X12+X22+...+Xn2, 其中X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn独立同分布于标准正态分布N(0,1).
X1X_1X1的密度函数为: p(x)=12πe−x22p(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}p(x)=2π1e−2x2 由此可推出Z=X12Z=X_1^2Z=X12的密度函数为:
f(z)={12πze−z2,(z≥0)0, (z<0)f(z)= \left\{
\begin{aligned}
\frac{1}{\sqrt{2\pi}\sqrt{z}}e^{-\frac{z}{2}},(z\geq0)\\
0,~~~~~~~~~~(z<0)\\
\end{aligned}
\right.
f(z)=⎩⎪⎨⎪⎧2πz1e−2z,(z≥0)0, (z<0)
证明如下:
FZ(z)=P(Z≤z)=P(X12≤z)=P(−z≤X1≤z)=FX1(z)−FX1(−z)F_Z(z)=P(Z\leq z)=P(X_1^2\leq z)=P(-\sqrt{z}\leq X_1\leq\sqrt{z})=F_{X_1}(\sqrt{z})-F_{X_1}(-\sqrt{z})FZ(z)=P(Z≤z)=P(X12≤z)=P(−z≤X1≤z)=FX1(z)−FX1(−z)
两边同时求导:
fZ(z)=fX1(z)−fX1(−z)2z=12πze−z2.f_Z(z)=\frac{f_{X_1}(\sqrt{z}) - f_{X_1}(-\sqrt{z})}{2\sqrt z}=\frac{1}{\sqrt{2\pi}\sqrt{z}}e^{-\frac{z}{2}}.fZ(z)=2zfX1(z)−fX1(−z)=2πz1e−2z.
由于Γ(12)=∫0+∞t−12etdt=π.\Gamma(\frac{1}{2})=\int^{+\infty}_0t^{-\frac{1}{2}}e^tdt=\sqrt{\pi}.Γ(21)=∫0+∞t−21etdt=π.
[Γ\GammaΓ函数又称为第二欧拉积分,这个值可以根据余元公式求出,也可以根据正态分布密度函数积分等于1直接得出,可参考https://wenku.baidu.com/view/7042411e561252d381eb6e25.html]
可以看出来 Y=X12Y=X_1^2Y=X12 ~ Ga(12,12)Ga(\frac{1}{2},\frac{1}{2})Ga(21,21).
证明完毕。
由于GammaGammaGamma分布具有可加性,即X1X_1X1 ~ Ga(α1,β)Ga(\alpha_1,\beta)Ga(α1,β), X2X_2X2 ~ Ga(α2,β)Ga(\alpha_2,\beta)Ga(α2,β), X1X_1X1与X2X_2X2独立,则Y=X1+X2Y=X_1+X_2Y=X1+X2 ~ Ga(α1+α2,β)Ga(\alpha_1+\alpha_2, \beta)Ga(α1+α2,β),这个性质可以用卷积公式证明,证明如下:
卷积公式:有相互独立的随机变量X,YX,YX,Y, Z=X+YZ=X+YZ=X+Y, 则fZ(z)=∫−∞+∞fX(x)fY(z−x)dxf_Z(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dxfZ(z)=∫−∞+∞fX(x)fY(z−x)dx
fY(y)=∫−∞+∞fX1(x)fX2(y−x)dxf_Y(y)=\int_{-\infty}^{+\infty}f_{X_1}(x)f_{X_2}(y-x)dxfY(y)=∫−∞+∞fX1(x)fX2(y−x)dx
=∫0yβα1Γ(α1)xα1−1e−βxβα2Γ(α2)(y−x)α2−1e−β(y−x)dx~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=\int_{0}^{y}\frac{\beta^{\alpha_1}}{\Gamma(\alpha_1)}x^{\alpha_1-1}e^{-\beta{x}}\frac{\beta^{\alpha_2}}{\Gamma(\alpha_2)}(y-x)^{\alpha_2-1}e^{-\beta{(y-x)}}dx =∫0yΓ(α1)βα1xα1−1e−βxΓ(α2)βα2(y−x)α2−1e−β(y−x)dx
=∫0yβα1+α2Γ(α1)Γ(α2)xα1−1(y−x)α2−1e−βydx~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=\int_{0}^{y}\frac{\beta^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1)\Gamma(\alpha_2)}x^{\alpha_1-1}(y-x)^{\alpha_2-1}e^{-\beta{y}}dx =∫0yΓ(α1)Γ(α2)βα1+α2xα1−1(y−x)α2−1e−βydx
=βα1+α2Γ(α1)Γ(α2)e−βy∫0yxα1−1(y−x)α2−1dx~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=\frac{\beta^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1)\Gamma(\alpha_2)}e^{-\beta{y}}\int_{0}^{y}x^{\alpha_1-1}(y-x)^{\alpha_2-1}dx =Γ(α1)Γ(α2)βα1+α2e−βy∫0yxα1−1(y−x)α2−1dx
(令xy=t) =βα1+α2Γ(α1)Γ(α2)e−βyyα1+α2−1∫01tα1−1(1−t)α2−1dt~~~~~~~~~~~~~~~~~~~~~(令\frac{x}{y}=t)~~~~~~~~~~=\frac{\beta^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1)\Gamma(\alpha_2)}e^{-\beta{y}}y^{{\alpha_1+\alpha_2-1}}\int_{0}^{1}t^{\alpha_1-1}(1-t)^{\alpha_2-1}dt (令yx=t) =Γ(α1)Γ(α2)βα1+α2e−βyyα1+α2−1∫01tα1−1(1−t)α2−1dt
=βα1+α2Γ(α1)Γ(α2)e−βyyα1+α2−1B(α1,α2)~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=\frac{\beta^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1)\Gamma(\alpha_2)}e^{-\beta{y}}y^{{\alpha_1+\alpha_2-1}}B(\alpha_1,\alpha_2) =Γ(α1)Γ(α2)βα1+α2e−βyyα1+α2−1B(α1,α2)
BetaBetaBeta函数与Γ\GammaΓ函数有关系式:B(a,b)=Γ(a)Γ(b)Γ(a+b)B(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}B(a,b)=Γ(a+b)Γ(a)Γ(b),这个等式可根据函数的定义通过变量代换证明。
=βα1+α2Γ(α1+α2)yα1+α2−1e−βy.~~~~~~~~~~~=\frac{\beta^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1+\alpha_2)}y^{\alpha_1+\alpha_2-1}e^{-\beta{y}}. =Γ(α1+α2)βα1+α2yα1+α2−1e−βy.
证明完毕。
根据GammaGammaGamma分布的可加性,很容易得出:
χ2(n) 等价于 Ga(n2,12).\chi^2(n)~~等价于~~ Ga(\frac{n}{2},\frac{1}{2}).χ2(n) 等价于 Ga(2n,21).
2 四格表中的卡方拟合优度检验
在检验临床药物有效性的实验设计时,经常会列出一个四格表,然后使用χ2\chi^2χ2统计量进行拟合优度检验,其原理解释如下。
黑色代表的是实际的实验结果,红色代表的是在药物1和药物2药效相同的情况下,理论的实验结果(即在假设药物1与药物2药效相同的情况下的实验结果)。π\piπ指的是使用两种药物的病人被治愈的概率相等-都为π\piπ,理论频数等于服用某种药物的人数乘以服用这种药物被治愈的概率。例如,选择mmm个病人服用药物1,服用药物1被治愈的概率是π\piπ,那么四格表中 Y−MY-MY−M的理论频数就为mπm\pimπ.
现在设药物1的有效率为π1\pi_1π1,现在设药物1的有效率为π2\pi_2π2.
可以把每一个服用了药物1的病人看作是一个0-1分布,被治愈取1,没有被治愈取0,
则对于药物1来说,相当于做了mmm次独立的BernoulliBernoulliBernoulli实验,成功的次数为k. 把成功的次数定为随机变量KKK, 即K∼B(m,π1)K\sim B(m,\pi_1)K∼B(m,π1), 根据独立同分布的中心极限定理,有:k−mπ1mπ1(1−π1) ∼˙ N(0,1)\frac{k-m\pi_1}{\sqrt{m\pi_1(1-\pi_1)}}~\dot{\sim}~N(0,1)mπ1(1−π1)k−mπ1 ∼˙ N(0,1)
随之:
χ2=(k−mπ1)2mπ1(1−π1)=(k−mπ1)2mπ1+[(m−k)−m(1−π1)]2m(1−π1)∼˙χ2(1)\chi^2=\frac{(k-m\pi_1)^2}{m\pi_1(1-\pi_1)}=\frac{(k-m\pi_1)^2}{m\pi_1}+\frac{[(m-k)-m(1-\pi_1)]^2}{m(1-\pi_1)}\dot{\sim}\chi^2(1)χ2=mπ1(1−π1)(k−mπ1)2=mπ1(k−mπ1)2+m(1−π1)[(m−k)−m(1−π1)]2∼˙χ2(1)
同理可得:
χ2=(l−nπ2)2nπ2(1−π2)=(l−nπ2)2nπ2+[(n−l)−n(1−π2)]2n(1−π2)∼˙χ2(1)\chi^2=\frac{(l-n\pi_2)^2}{n\pi_2(1-\pi_2)}=\frac{(l-n\pi_2)^2}{n\pi_2}+\frac{[(n-l)-n(1-\pi_2)]^2}{n(1-\pi_2)}\dot{\sim}\chi^2(1)χ2=nπ2(1−π2)(l−nπ2)2=nπ2(l−nπ2)2+n(1−π2)[(n−l)−n(1−π2)]2∼˙χ2(1)
现在要检验药物1与药物2的药效是否相同,那么原假设与备择假设如下:
H0:π1=π2=π H1:π1≠π2H_0:\pi_1=\pi_2=\pi~~~~~~~~~H_1:\pi_1\neq\pi_2H0:π1=π2=π H1:π1̸=π2
在原假设成立的条件下,有:
(k−mπ)2mπ(1−π)+(l−nπ)2nπ(1−π)=((k+l)−(m+n)π(m+n)π(1−π))2∼˙χ2(1)\frac{(k-m\pi)^2}{m\pi(1-\pi)}+\frac{(l-n\pi)^2}{n\pi(1-\pi)}=(\frac{(k+l)-(m+n)\pi}{\sqrt{(m+n)\pi(1-\pi)}})^2\dot{\sim}\chi^2(1)mπ(1−π)(k−mπ)2+nπ(1−π)(l−nπ)2=((m+n)π(1−π)(k+l)−(m+n)π)2∼˙χ2(1)
所以可以这样构造 χ2\chi^2χ2 统计量:
(k−mπ)2mπ+[(m−k)−m(1−π)]2m(1−π)+(l−nπ)2nπ+[(n−l)−n(1−π)]2n(1−π)∼˙χ2(1)\frac{(k-m\pi)^2}{m\pi}+\frac{[(m-k)-m(1-\pi)]^2}{m(1-\pi)}+\frac{(l-n\pi)^2}{n\pi}+\frac{[(n-l)-n(1-\pi)]^2}{n(1-\pi)}\dot{\sim}\chi^2(1)mπ(k−mπ)2+m(1−π)[(m−k)−m(1−π)]2+nπ(l−nπ)2+n(1−π)[(n−l)−n(1−π)]2∼˙χ2(1)