方差分析卡方检验假设检验 Pandas

最新推荐文章于 2024-11-09 11:30:50 发布

原创最新推荐文章于 2024-11-09 11:30:50 发布 · 3.8k 阅读

CC 4.0 BY-SA版权

本文介绍了方差分析、卡方检验和假设检验在数据分析中的应用，特别是结合Pandas库进行数值运算。方差分析用于检验分类变量对数值型因变量的影响，卡方检验用于计数资料的假设检验，而假设检验则涉及多种双样本检验方法，如双样本方差、均值差检验等。Pandas在这些统计分析中提供了数值运算函数，便于数据处理和分析。

方差分析

在研究一个（或多个）分类型自变量与一个数值型因变量之间的关系时，方差分析就是其中主要方法之一。
如果在数据分析过程中，遇到的分类变量有多个，且每一分类变量对应的因变量的值形成的多个总体分布都服从于正态分布，并且各个总体的方差相等，那么比较各个总体均值是否一致的问题可以用方差分析来解决。
表面上看，方差分析是检验多个总体均值是否相等的统计分析方法，但本质上它所研究的是分类型自变量对数值型因变量的影响。
方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响

每次抽样为一个试验，所要检验的对象称为因素或因子，因素的不同表现称为水平或处理；
将在试验中回改变状态的因素称为因子，常用大写字母表示
因子所处的状态称为因子的水平，常用因子的字母加下标来表示
试验中所考察的指标，它是一个随机变量

如果一个试验中所考察的因子只有一个，那么这是单因子试验的问题
假定因子 $A$ 有 $r$ 各水平，在每个水平下指标的全体都构成一个总体，因此共有 $r$ 个总体。
假定第 $i$ 个总体服从均值为 $μi\mu_i$ ，方差为 $σ2\sigma^2$ 的正态分布，从该总体获得一个样本量为 $m$ 的样本 $,yimy_{i1},y_{i2},\cdots,y_{im}$ ，其观测值便是我们观测到的数据 $,ri=1,2,\cdots,r$ ，最后假定各样本是相互独立的
单因素方差分析主要是要检验如下假设：
$H0:u1=u2=⋯=urH_0:u_1=u_2=\cdots=u_r$
$,urH_1:u_1,u_2,\cdots,u_r$ 不全相等

当 $H_0$ 不真时，表示不同水平下的指标的均值有显著差异，此时称因子 $A$ 是显著的，否则称因子 $A$ 不显著

方差分析是在相同方差假定的下检验多个正态均值是否相等的一种统计分析方法

在方差分析中，需要考察数据误差的来源
SST称为总离差平方和，或简称总平方和，它反映了全部试验数据之间的差异
SSM组间离差平方和，简称组间平方和，或称因素 $A$ 平方和
SSE组内离差平方和，反映了组内数据和组内平均的随机误差
$S S T = S S M + S S E$

在方差分析中，数据的总误差可以分解为组内误差和组间误差，如果因素的不同水平对因变量没有影响，那么在组间误差中只包含随机误差，而没有系统误差。这时组间误差与组内误差经过平均后的数据就应该接近于1，反之，如果因素不同水平对因变量有影响，那么组间误差除了包含随机误差外，还包含系统误差，这时组间误差平均后的数据就会大于组内误差平均后的数值，它们之间的数值就会大于1。当这个比值大到某种程度时，就认为因素的不同水平之间存在着显著差异，也就是自变量对因变量有显著影响。

卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数范畴，主要是比较两个及两个以上样本率（构成比）以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题

假设检验

双样本方差

设样本 $,xn1x_1,x_2,\cdots,x_{n_1}$ 来自正态总体 $N(μ1,σ12)N(\mu_1,\sigma_1^2)$ ， $,yn2y_1,y_2,\cdots,y_{n_2}$ 来自正态总体 $N(μ2,σ22)N(\mu_2,\sigma_2^2)$ ，则此时关于双样本方差检验为：
$F=s12s22F=\frac{s_1^2}{s_2^2}$
当 $σ12=σ22\sigma_1^2=\sigma_2^2$ 时，服从 $F(n_1-1,n_2-1)$

双样本均值差检验

设样本 $,xn1x_1,x_2,\cdots,x_{n_1}$ 来自正态总体 $N(μ1,σ12)N(\mu_1,\sigma_1^2)$ ， $,yn2y_1,y_2,\cdots,y_{n_2}$ 来自正态总体，且两个总体方差 $σ12\sigma_1^2$ 和 $σ22\sigma_2^2$ 已知，则此时关于双样本均值差检验为：
$z=x‾−y‾−d0σ12n1+σ22n2z=\frac{\overline x-\overline y - d_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$
当 $μ1−μ2=d0\mu_1-\mu_2=d_0$ 时， $z$ 服从 $N (0, 1)$

双样本等方差检验

设样本 $,xn1x_1,x_2,\cdots,x_{n_1}$ 来自正态总体 $N(μ1,σ12)N(\mu_1,\sigma_1^2)$ ， $,yn2y_1,y_2,\cdots,y_{n_2}$ 来自正态总体，且两个总体方差 $σ12\sigma_1^2$ 和 $σ22\sigma_2^2$ 未知但相等，即 $σ12=σ22\sigma_1^2=\sigma_2^2$ ，则此时关于双样本均值差检验为：
$t=x‾−y‾−d0sp1n1+1n2t=\frac{\overline x-\overline y - d_0}{s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$ $s_p=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}$
当 $μ1−μ2=d0\mu_1-\mu_2=d_0$ 时， $t$ 服从 $t(n_1+n_2-2)$

双样本异方差检验

设样本 $,xn1x_1,x_2,\cdots,x_{n_1}$ 来自正态总体 $N(μ1,σ12)N(\mu_1,\sigma_1^2)$ ， $,yn2y_1,y_2,\cdots,y_{n_2}$ 来自正态总体，且两个总体方差 $σ12\sigma_1^2$ 和 $σ22\sigma_2^2$ 未知且不相等，则此时关于双样本均值差检验为：
$t=x‾−y‾−d0s12n1+s22n2t=\frac{\overline x-\overline y - d_0}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}$
$f=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(\frac{s_1^2}{n_1})^2}{n_1-1}+\frac{(\frac{s_2^2}{n_2})^2}{n_2-1}}$
当 $μ1−μ2=d0\mu_1-\mu_2=d_0$ 时， $t$ 服从自由度为 $f$ 的 $t$ 分布

平均值的成对二样本分析

成对观测值的 $t$ 检验常用于两组数据均值是否相等的均值检验。
成对观测的样本以 $,dnd_1,d_2,\cdots,d_n$ 表示 $n$ 对观测值之差，则此时关于双样本均值差检验为：
$t=d‾−d0sd/nt=\frac{\overline d - d_0}{s_d / \sqrt n}$
当 $μ1−μ2=d0\mu_1-\mu_2=d_0$ 时， $t$ 服从 $t (n - 1)$ 分布

总体方差已知，关于均值的检验

设样本 $,xn1x_1,x_2,\cdots,x_{n_1}$ 来自正态总体 $N(μ,σ2)N(\mu,\sigma^2)$ ，且总体方差 $σ2\sigma^2$ 已知，则关于总体均值 $μ\mu$ 的检验为：
$z=x‾−μ0σ/nz=\frac{\overline x - \mu_0}{\sigma / \sqrt n}$
当 $μ=μ0\mu = \mu_0$ 时， $z$ 检验统计量服从正态分布

总体方差未知，关于均值的检验

设样本 $,xn1x_1,x_2,\cdots,x_{n_1}$ 来自正态总体 $N(μ,σ2)N(\mu,\sigma^2)$ ，且总体方差 $σ2\sigma^2$ 未知。在这种情况下，用样本方差 $s^2$ 代替 $σ2\sigma^2$ ，则此时关于总体均值 $μ\mu$ 的检验为：
$t=x‾−μ0s/nt=\frac{\overline x - \mu_0}{s / \sqrt n}$
当 $μ=μ0\mu = \mu_0$ 时，根据抽样分布理论，统计量 $t$ 服从 $t (n - 1)$

总体均值已知，关于方差的检验

设样本 $,xn1x_1,x_2,\cdots,x_{n_1}$ 来自正态总体 $N(μ,σ2)N(\mu,\sigma^2)$ ，且总体均值 $μ\mu$ 已知，则此时关于总体方差的检验为：
$χ2=∑(xi−μ)2σ02\chi^2=\frac{\sum(x_i-\mu)^2}{\sigma_0^2}$
当 $σ2=σ02\sigma^2=\sigma_0^2$ 时， $χ2\chi^2$ 服从 $χ2(n−1)\chi^2(n-1)$

总体均值未知，关于方差的检验

设样本 $,xn1x_1,x_2,\cdots,x_{n_1}$ 来自正态总体 $N(μ,σ2)N(\mu,\sigma^2)$ ，且总体均值 $μ\mu$ 未知，用样本均值代替总体均值，则此时关于总体方差的检验为：
$χ2=∑(xi−x‾)2σ02=(n−1)s2σ02\chi^2=\frac{\sum(x_i- \overline x)^2}{\sigma_0^2}=\frac{(n-1)s^2}{\sigma_0^2}$
当 $σ2=σ02\sigma^2=\sigma_0^2$ 时， $χ2\chi^2$ 服从 $χ2(n−1)\chi^2(n-1)$

根据样本方差的抽样分布可知，样本方差服从自由度为 $n - 1$ 的 $χ2\chi^2$ 分布
$(n−1)s2σ2~χ2(n−1)\frac{(n-1)s^2}{\sigma^2} \text{\textasciitilde} \chi^2(n-1)$
两个样本方差比的抽样分布服从 $F$ 分布
$s12s22⋅σ12σ22~F(n1−1,n2−1)\frac{s_1^2}{s_2^2} \cdot \frac{\sigma_1^2}{\sigma_2^2} \text{\textasciitilde} F(n_1-1,n_2-1)$
当总体服从正态分布且方差已知，样本均值 $x$ 的抽样分布均为正态分布，其数学期望为总体均值 $μ\mu$ ，方差为 $σ2/n\sigma^2/n$ ，而样本均值经过标准化以后的随机变量则服从标准正态分布，即
$z=x‾−μσn~N(0,1)z=\frac{\overline x - \mu}{\sigma\sqrt n} \text{\textasciitilde} N(0,1)$
如果总体服从正态分布，则无论样本量如何，样本均值 $x‾\overline x$ 的抽样分布都服从正态分布。这时，只要总体方差 $σ2\sigma ^2$ 已知，即使在小样本的情况下。但如果总体方差未知，而且是在小样本的情况下，则需要用样本方差 $s^2$ 代替 $σ2\sigma^2$ ，这时，样本均值经过标准化以后的随机变量则服从自由度为 $n - 1$ 的t分布
$t=x‾−μsn~t(n−1)t=\frac{\overline x - \mu}{s\sqrt n} \text{\textasciitilde} t(n-1)$
如果总体服从正态分布但方差未知，或者总体并不服从正态分布，只要在大样本条件下，就可以使用样本方差代替总体方差，
$z=x‾−μsn~N(0,1)z=\frac{\overline x - \mu}{s\sqrt n} \text{\textasciitilde} N(0,1)$
当两个总体都服从正态分布或两个总体不服从正态分布但两个样本都为大样本，根据抽样分布的知识可知，两个样本均值之差 $x‾1−x‾2\overline x_1 - \overline x_2$ 的抽样分布服从期望值为 $μ1−μ2\mu_1-\mu_2$ ，方差为 $σ12n1+σ22n2\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}$ 的正态分布，而两个样本均值之差经标准化以后服从正态分布，即
$z=(x‾1−x‾2)−(μ1−μ2)σ12n1+σ22n2~N(0,1)z=\frac{(\overline x_1- \overline x_2)-(\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \text{\textasciitilde} N(0,1)$
当两个总体的方差都未知时，可用两个样本方差代替总体总体方差

当两个总体的方差未知但相等时，需要用两个样本方差来估计，这时需要计算总体方差的合并估计量 $s_p^2$ ，计算公式为
$sp2=(n1−1)s12+(n2−1)s22n1+n2−2s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$
两个样本均值之差经标准化后服从自由度为 $n_1+n_2-2$ 的 $t$ 分布，即
$t=(x‾1−x‾2)−(μ1−μ2)sp1n1+1n2~t(n1+n2−2)t=\frac{(\overline x_1-\overline x_2) -(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \text{\textasciitilde} t(n_1+n_2-2)$
当两个总体的方差未知且不相等时，只要两个总体都服从正态分布，而且两个样本的样本量相等，
$t=(x‾1−x‾2)−(μ1−μ2)s12n1+s22n2~t(n1+n2−2)t=\frac{(\overline x_1-\overline x_2) -(\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \text{\textasciitilde} t(n_1+n_2-2)$
当两个总体的方差未知且不相等时，而两个样本的样本量不相等，两个样本均值之差服从自由度为 $n_1+n_2-2$ 的 $t$ 分布，而是仅服从自由度为 $v$ 的 $t$ 分布
$v=(s12n1+s22n2)2(s12/n1)2n1−1+(s22/n2)2n2−1v=\frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2}{\frac{(s_1^2/n_1)^2}{n_1-1} + \frac{(s_2^2/n_2)^2}{n_2-1}}$
$t=(x‾1−x‾2)−(μ1−μ2)s12n1+s22n2~t(v)t=\frac{(\overline x_1-\overline x_2) -(\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \text{\textasciitilde} t(v)$

P值

P值是进行假设检验决策的另一个依据，是最常用的一个统计学指标，统计和计量软件输出结构都有P值。通过比较检验统计量与临界值的大小的检验方法逐渐被P值检验所取代。

P值就是当原假设为真时，检验统计量大于或等于实际观测值的概率
P值是一种概率，一种在原假设为真的前提下，出现观测样本统计量的值及更极端情况下的概率
它是拒绝原假设的最小的显著性水平
它是通过抽样得到的样本数据计算到的显著性水平
它表示对原假设的支持程度，是用于确定是否应该拒绝原假设的一种方法

一般地，用 $X$ 表示检验的统计量。当 $H_0$ 为真时，可由样本数据计算出该统计量的值 $C$ ，根据检验统计量 $X$ 的具体分布，可求出P值。具体地说：
左侧检验的P值为检验统计量 $X$ 小于样本统计值C的概率， $P = P (X < C)$
右侧检验的P值为检验统计量 $X$ 大于样本统计值C的概率， $P = P (X > C)$
双侧检验的P值为检验统计量 $X$ 落在样本统计值 $C$ 为端点的尾部区域内的概率的2倍， $P = 2 P (X > C)$ （当 $C$ 位于分布曲线的右端时）或 $P = 2 P (X < C)$ （当 $C$ 位于分布曲线的左端时）。若 $X$ 服从正态分布和 $t$ 分布，其分布曲线是关于纵轴对称，故其P值可表示为 $P=P\{|X|<C\}$

P值就是当原假设为真时所得到的样本统计量观测值或更极端结果出现的概率。如果P值很小，说明这种情况发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由的就越充分。总之，P值越小，表明结果越显著。但是检验的结果究竟是显著的、中度显著的还是高度显著的，需要我们根据P值的大小和实际的数据来分析

Pandas

参数名	常用值	说明
axis	0、1	运算对应的轴
level	整数或索引的级别名	指定运算对应的级别
fill_value	数值	指定运算中出现的NaN的替代填充值
skipna	布尔值	运算是否跳过NaN
index	序列	指定行索引
columns	序列	指定列索引
numeric_only	布尔值	是否只针对数值进行运算
func	可调用对象	指定回调函数
inplace	布尔值	是否原地更新，若为否，则返回新对象
encoding	“utf8”	指定文本编码
dropna	布尔值	是否删除包含NaN的行