卡方分布

本文深入探讨了卡方分布与伽玛分布的关系,详细解析了卡方分布的数学推导,并介绍了如何利用卡方检验进行四格表中的拟合优度检验,适用于临床药物有效性评估。

卡方分布

1 卡方分布与伽马分布

若随机变量 χ2\chi^2χ2 服从参数为nnn的卡方分布 — χ2(n)\chi^2(n)χ2(n),则它的密度函数是:
p(x)=(12)n2Γ(n2)xn2−1e−x2  (x≥0)p(x)=\frac{({\frac{1}{2})}^{\frac{n}{2}}}{\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}~~(x\geq0)p(x)=Γ(2n)(21)2nx2n1e2x  (x0)

其中:Γ(n2)=∫0+∞tn2−1e−tdt.\Gamma(\frac{n}{2})=\int^{+\infty}_0t^{\frac{n}{2}-1}e^{-t}dt.Γ(2n)=0+t2n1etdt.
可以看出,χ2\chi^2χ2分布的密度函数与GammaGammaGamma分布的密度函数很相似:
f(y)={βαΓ(α)yα−1e−βy,(y≥0) 0,           (y&lt;0)f(y)=\left\{ \begin{aligned} \frac{\beta^\alpha}{\Gamma(\alpha)}y^{\alpha-1}e^{-\beta{y}},(y\geq0)\\ ~0,~~~~~~~~~~~(y&lt;0) \end{aligned} \right. f(y)=Γ(α)βαyα1eβy,(y0) 0,           (y<0)

其中,Γ(α)=∫0+∞tα−1e−tdt\Gamma(\alpha)=\int_0^{+\infty}t^{\alpha-1}e^{-t}dtΓ(α)=0+tα1etdt.

事实上,χ2(n)\chi^2(n)χ2(n)等价于 Ga(n2,12)Ga(\frac{n}{2},\frac{1}{2})Ga(2n,21). 接下来证明这一点。

服从χ2(n)\chi^2(n)χ2(n)的随机变量χ2\chi^2χ2nnn个独立随机变量的组合:χ2=X12+X22+...+Xn2,  \chi^2=X_1^2+X_2^2+...+X_n^2,~~χ2=X12+X22+...+Xn2,  其中X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn独立同分布于标准正态分布N(0,1).

X1X_1X1的密度函数为: p(x)=12πe−x22p(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}p(x)=2π1e2x2 由此可推出Z=X12Z=X_1^2Z=X12的密度函数为:

f(z)={12πze−z2,(z≥0)0,          (z&lt;0)f(z)= \left\{ \begin{aligned} \frac{1}{\sqrt{2\pi}\sqrt{z}}e^{-\frac{z}{2}},(z\geq0)\\ 0,~~~~~~~~~~(z&lt;0)\\ \end{aligned} \right. f(z)=2πz1e2z,(z0)0,          (z<0)
证明如下:

FZ(z)=P(Z≤z)=P(X12≤z)=P(−z≤X1≤z)=FX1(z)−FX1(−z)F_Z(z)=P(Z\leq z)=P(X_1^2\leq z)=P(-\sqrt{z}\leq X_1\leq\sqrt{z})=F_{X_1}(\sqrt{z})-F_{X_1}(-\sqrt{z})FZ(z)=P(Zz)=P(X12z)=P(zX1z)=FX1(z)FX1(z)

两边同时求导:
fZ(z)=fX1(z)−fX1(−z)2z=12πze−z2.f_Z(z)=\frac{f_{X_1}(\sqrt{z}) - f_{X_1}(-\sqrt{z})}{2\sqrt z}=\frac{1}{\sqrt{2\pi}\sqrt{z}}e^{-\frac{z}{2}}.fZ(z)=2zfX1(z)fX1(z)=2πz1e2z.

由于Γ(12)=∫0+∞t−12etdt=π.\Gamma(\frac{1}{2})=\int^{+\infty}_0t^{-\frac{1}{2}}e^tdt=\sqrt{\pi}.Γ(21)=0+t21etdt=π.

[Γ\GammaΓ函数又称为第二欧拉积分,这个值可以根据余元公式求出,也可以根据正态分布密度函数积分等于1直接得出,可参考https://wenku.baidu.com/view/7042411e561252d381eb6e25.html]

可以看出来 Y=X12Y=X_1^2Y=X12 ~ Ga(12,12)Ga(\frac{1}{2},\frac{1}{2})Ga(21,21).

证明完毕。

由于GammaGammaGamma分布具有可加性,即X1X_1X1 ~ Ga(α1,β)Ga(\alpha_1,\beta)Ga(α1,β), X2X_2X2 ~ Ga(α2,β)Ga(\alpha_2,\beta)Ga(α2,β), X1X_1X1X2X_2X2独立,则Y=X1+X2Y=X_1+X_2Y=X1+X2 ~ Ga(α1+α2,β)Ga(\alpha_1+\alpha_2, \beta)Ga(α1+α2,β),这个性质可以用卷积公式证明,证明如下:

卷积公式:有相互独立的随机变量X,YX,YX,Y, Z=X+YZ=X+YZ=X+Y, 则fZ(z)=∫−∞+∞fX(x)fY(z−x)dxf_Z(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dxfZ(z)=+fX(x)fY(zx)dx

fY(y)=∫−∞+∞fX1(x)fX2(y−x)dxf_Y(y)=\int_{-\infty}^{+\infty}f_{X_1}(x)f_{X_2}(y-x)dxfY(y)=+fX1(x)fX2(yx)dx
                                                  =∫0yβα1Γ(α1)xα1−1e−βxβα2Γ(α2)(y−x)α2−1e−β(y−x)dx~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=\int_{0}^{y}\frac{\beta^{\alpha_1}}{\Gamma(\alpha_1)}x^{\alpha_1-1}e^{-\beta{x}}\frac{\beta^{\alpha_2}}{\Gamma(\alpha_2)}(y-x)^{\alpha_2-1}e^{-\beta{(y-x)}}dx                                                  =0yΓ(α1)βα1xα11eβxΓ(α2)βα2(yx)α21eβ(yx)dx
                                      =∫0yβα1+α2Γ(α1)Γ(α2)xα1−1(y−x)α2−1e−βydx~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=\int_{0}^{y}\frac{\beta^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1)\Gamma(\alpha_2)}x^{\alpha_1-1}(y-x)^{\alpha_2-1}e^{-\beta{y}}dx                                      =0yΓ(α1)Γ(α2)βα1+α2xα11(yx)α21eβydx
                                       =βα1+α2Γ(α1)Γ(α2)e−βy∫0yxα1−1(y−x)α2−1dx~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=\frac{\beta^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1)\Gamma(\alpha_2)}e^{-\beta{y}}\int_{0}^{y}x^{\alpha_1-1}(y-x)^{\alpha_2-1}dx                                       =Γ(α1)Γ(α2)βα1+α2eβy0yxα11(yx)α21dx
                     (令xy=t)          =βα1+α2Γ(α1)Γ(α2)e−βyyα1+α2−1∫01tα1−1(1−t)α2−1dt~~~~~~~~~~~~~~~~~~~~~(令\frac{x}{y}=t)~~~~~~~~~~=\frac{\beta^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1)\Gamma(\alpha_2)}e^{-\beta{y}}y^{{\alpha_1+\alpha_2-1}}\int_{0}^{1}t^{\alpha_1-1}(1-t)^{\alpha_2-1}dt                     (yx=t)          =Γ(α1)Γ(α2)βα1+α2eβyyα1+α2101tα11(1t)α21dt
                             =βα1+α2Γ(α1)Γ(α2)e−βyyα1+α2−1B(α1,α2)~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=\frac{\beta^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1)\Gamma(\alpha_2)}e^{-\beta{y}}y^{{\alpha_1+\alpha_2-1}}B(\alpha_1,\alpha_2)                             =Γ(α1)Γ(α2)βα1+α2eβyyα1+α21B(α1,α2)

BetaBetaBeta函数与Γ\GammaΓ函数有关系式:B(a,b)=Γ(a)Γ(b)Γ(a+b)B(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}B(a,b)=Γ(a+b)Γ(a)Γ(b),这个等式可根据函数的定义通过变量代换证明。

           =βα1+α2Γ(α1+α2)yα1+α2−1e−βy.~~~~~~~~~~~=\frac{\beta^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1+\alpha_2)}y^{\alpha_1+\alpha_2-1}e^{-\beta{y}}.           =Γ(α1+α2)βα1+α2yα1+α21eβy.
证明完毕。
根据GammaGammaGamma分布的可加性,很容易得出:
χ2(n)  等价于  Ga(n2,12).\chi^2(n)~~等价于~~ Ga(\frac{n}{2},\frac{1}{2}).χ2(n)    Ga(2n,21).

2 四格表中的卡方拟合优度检验

在检验临床药物有效性的实验设计时,经常会列出一个四格表,然后使用χ2\chi^2χ2统计量进行拟合优度检验,其原理解释如下。
hongsec 在这里插入图片描述
黑色代表的是实际的实验结果,红色代表的是在药物1和药物2药效相同的情况下,理论的实验结果(即在假设药物1与药物2药效相同的情况下的实验结果)。π\piπ指的是使用两种药物的病人被治愈的概率相等-都为π\piπ,理论频数等于服用某种药物的人数乘以服用这种药物被治愈的概率。例如,选择mmm个病人服用药物1,服用药物1被治愈的概率是π\piπ,那么四格表中 Y−MY-MYM的理论频数就为mπm\pimπ.

现在设药物1的有效率为π1\pi_1π1,现在设药物1的有效率为π2\pi_2π2.

可以把每一个服用了药物1的病人看作是一个0-1分布,被治愈取1,没有被治愈取0,
则对于药物1来说,相当于做了mmm次独立的BernoulliBernoulliBernoulli实验,成功的次数为k. 把成功的次数定为随机变量KKK, 即K∼B(m,π1)K\sim B(m,\pi_1)KB(m,π1), 根据独立同分布的中心极限定理,有:k−mπ1mπ1(1−π1) ∼˙ N(0,1)\frac{k-m\pi_1}{\sqrt{m\pi_1(1-\pi_1)}}~\dot{\sim}~N(0,1)mπ1(1π1)kmπ1 ˙ N(0,1)
随之:
χ2=(k−mπ1)2mπ1(1−π1)=(k−mπ1)2mπ1+[(m−k)−m(1−π1)]2m(1−π1)∼˙χ2(1)\chi^2=\frac{(k-m\pi_1)^2}{m\pi_1(1-\pi_1)}=\frac{(k-m\pi_1)^2}{m\pi_1}+\frac{[(m-k)-m(1-\pi_1)]^2}{m(1-\pi_1)}\dot{\sim}\chi^2(1)χ2=mπ1(1π1)(kmπ1)2=mπ1(kmπ1)2+m(1π1)[(mk)m(1π1)]2˙χ2(1)
同理可得:
χ2=(l−nπ2)2nπ2(1−π2)=(l−nπ2)2nπ2+[(n−l)−n(1−π2)]2n(1−π2)∼˙χ2(1)\chi^2=\frac{(l-n\pi_2)^2}{n\pi_2(1-\pi_2)}=\frac{(l-n\pi_2)^2}{n\pi_2}+\frac{[(n-l)-n(1-\pi_2)]^2}{n(1-\pi_2)}\dot{\sim}\chi^2(1)χ2=nπ2(1π2)(lnπ2)2=nπ2(lnπ2)2+n(1π2)[(nl)n(1π2)]2˙χ2(1)
现在要检验药物1与药物2的药效是否相同,那么原假设与备择假设如下:
H0:π1=π2=π         H1:π1≠π2H_0:\pi_1=\pi_2=\pi~~~~~~~~~H_1:\pi_1\neq\pi_2H0:π1=π2=π         H1:π1̸=π2
在原假设成立的条件下,有:
(k−mπ)2mπ(1−π)+(l−nπ)2nπ(1−π)=((k+l)−(m+n)π(m+n)π(1−π))2∼˙χ2(1)\frac{(k-m\pi)^2}{m\pi(1-\pi)}+\frac{(l-n\pi)^2}{n\pi(1-\pi)}=(\frac{(k+l)-(m+n)\pi}{\sqrt{(m+n)\pi(1-\pi)}})^2\dot{\sim}\chi^2(1)mπ(1π)(kmπ)2+nπ(1π)(lnπ)2=((m+n)π(1π)(k+l)(m+n)π)2˙χ2(1)
所以可以这样构造 χ2\chi^2χ2 统计量:
(k−mπ)2mπ+[(m−k)−m(1−π)]2m(1−π)+(l−nπ)2nπ+[(n−l)−n(1−π)]2n(1−π)∼˙χ2(1)\frac{(k-m\pi)^2}{m\pi}+\frac{[(m-k)-m(1-\pi)]^2}{m(1-\pi)}+\frac{(l-n\pi)^2}{n\pi}+\frac{[(n-l)-n(1-\pi)]^2}{n(1-\pi)}\dot{\sim}\chi^2(1)mπ(kmπ)2+m(1π)[(mk)m(1π)]2+nπ(lnπ)2+n(1π)[(nl)n(1π)]2˙χ2(1)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值