方差分析 卡方检验 假设检验 Pandas

本文介绍了方差分析、卡方检验和假设检验在数据分析中的应用,特别是结合Pandas库进行数值运算。方差分析用于检验分类变量对数值型因变量的影响,卡方检验用于计数资料的假设检验,而假设检验则涉及多种双样本检验方法,如双样本方差、均值差检验等。Pandas在这些统计分析中提供了数值运算函数,便于数据处理和分析。

方差分析

在研究一个(或多个)分类型自变量与一个数值型因变量之间的关系时,方差分析就是其中主要方法之一。
如果在数据分析过程中,遇到的分类变量有多个,且每一分类变量对应的因变量的值形成的多个总体分布都服从于正态分布,并且各个总体的方差相等,那么比较各个总体均值是否一致的问题可以用方差分析来解决。
表面上看,方差分析是检验多个总体均值是否相等的统计分析方法,但本质上它所研究的是分类型自变量对数值型因变量的影响。
方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响

每次抽样为一个试验,所要检验的对象称为因素或因子,因素的不同表现称为水平或处理;
将在试验中回改变状态的因素称为因子,常用大写字母表示
因子所处的状态称为因子的水平,常用因子的字母加下标来表示
试验中所考察的指标,它是一个随机变量

如果一个试验中所考察的因子只有一个,那么这是单因子试验的问题
假定因子AAArrr各水平,在每个水平下指标的全体都构成一个总体,因此共有rrr个总体。
假定第iii个总体服从均值为μi\mu_iμi,方差为σ2\sigma^2σ2的正态分布,从该总体获得一个样本量为mmm的样本yi1,yi2,⋯ ,yimy_{i1},y_{i2},\cdots,y_{im}yi1,yi2,,yim,其观测值便是我们观测到的数据i=1,2,⋯ ,ri=1,2,\cdots,ri=1,2,,r,最后假定各样本是相互独立的
单因素方差分析主要是要检验如下假设:
H0:u1=u2=⋯=urH_0:u_1=u_2=\cdots=u_rH0:u1=u2==ur
H1:u1,u2,⋯ ,urH_1:u_1,u_2,\cdots,u_rH1:u1,u2,,ur不全相等

H0H_0H0不真时,表示不同水平下的指标的均值有显著差异,此时称因子AAA是显著的,否则称因子AAA不显著

方差分析是在相同方差假定的下检验多个正态均值是否相等的一种统计分析方法

在方差分析中,需要考察数据误差的来源
SST称为总离差平方和,或简称总平方和,它反映了全部试验数据之间的差异
SSM组间离差平方和,简称组间平方和,或称因素AAA平方和
SSE组内离差平方和,反映了组内数据和组内平均的随机误差
SST=SSM+SSESST=SSM+SSESST=SSM+SSE

在方差分析中,数据的总误差可以分解为组内误差和组间误差,如果因素的不同水平对因变量没有影响,那么在组间误差中只包含随机误差,而没有系统误差。这时组间误差与组内误差经过平均后的数据就应该接近于1,反之,如果因素不同水平对因变量有影响,那么组间误差除了包含随机误差外,还包含系统误差,这时组间误差平均后的数据就会大于组内误差平均后的数值,它们之间的数值就会大于1。当这个比值大到某种程度时,就认为因素的不同水平之间存在着显著差异,也就是自变量对因变量有显著影响。

卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数范畴,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题

假设检验

双样本方差

设样本x1,x2,⋯ ,xn1x_1,x_2,\cdots,x_{n_1}x1,x2,,xn1来自正态总体N(μ1,σ12)N(\mu_1,\sigma_1^2)N(μ1,σ12)y1,y2,⋯ ,yn2y_1,y_2,\cdots,y_{n_2}y1,y2,,yn2来自正态总体N(μ2,σ22)N(\mu_2,\sigma_2^2)N(μ2,σ22),则此时关于双样本方差检验为:
F=s12s22F=\frac{s_1^2}{s_2^2}F=s22s12
σ12=σ22\sigma_1^2=\sigma_2^2σ12=σ22时,服从F(n1−1,n2−1)F(n_1-1,n_2-1)F(n11,n21)

双样本均值差检验

设样本x1,x2,⋯ ,xn1x_1,x_2,\cdots,x_{n_1}x1,x2,,xn1来自正态总体N(μ1,σ12)N(\mu_1,\sigma_1^2)N(μ1,σ12)y1,y2,⋯ ,yn2y_1,y_2,\cdots,y_{n_2}y1,y2,,yn2来自正态总体,且两个总体方差σ12\sigma_1^2σ12σ22\sigma_2^2σ22已知,则此时关于双样本均值差检验为:
z=x‾−y‾−d0σ12n1+σ22n2z=\frac{\overline x-\overline y - d_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}z=n1σ12+n2σ22xyd0
μ1−μ2=d0\mu_1-\mu_2=d_0μ1μ2=d0时,zzz服从N(0,1)N(0,1)N(0,1)

双样本等方差检验

设样本x1,x2,⋯ ,xn1x_1,x_2,\cdots,x_{n_1}x1,x2,,xn1来自正态总体N(μ1,σ12)N(\mu_1,\sigma_1^2)N(μ1,σ12)y1,y2,⋯ ,yn2y_1,y_2,\cdots,y_{n_2}y1,y2,,yn2来自正态总体,且两个总体方差σ12\sigma_1^2σ12σ22\sigma_2^2σ22未知但相等,即σ12=σ22\sigma_1^2=\sigma_2^2σ12=σ22,则此时关于双样本均值差检验为:
t=x‾−y‾−d0sp1n1+1n2t=\frac{\overline x-\overline y - d_0}{s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} t=spn11+n21xyd0sp=(n1−1)s12+(n2−1)s22n1+n2−2 s_p=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}} sp=n1+n22(n11)s12+(n21)s22
μ1−μ2=d0\mu_1-\mu_2=d_0μ1μ2=d0时,ttt服从t(n1+n2−2)t(n_1+n_2-2)t(n1+n22)

双样本异方差检验

设样本x1,x2,⋯ ,xn1x_1,x_2,\cdots,x_{n_1}x1,x2,,xn1来自正态总体N(μ1,σ12)N(\mu_1,\sigma_1^2)N(μ1,σ12)y1,y2,⋯ ,yn2y_1,y_2,\cdots,y_{n_2}y1,y2,,yn2来自正态总体,且两个总体方差σ12\sigma_1^2σ12σ22\sigma_2^2σ22未知且不相等,则此时关于双样本均值差检验为:
t=x‾−y‾−d0s12n1+s22n2t=\frac{\overline x-\overline y - d_0}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} t=n1s12+n2s22xyd0
f=(s12n1+s22n2)2(s12n1)2n1−1+(s22n2)2n2−1 f=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(\frac{s_1^2}{n_1})^2}{n_1-1}+\frac{(\frac{s_2^2}{n_2})^2}{n_2-1}} f=n11(n1s12)2+n21(n2s22)2(n1s12+n2s22)2
μ1−μ2=d0\mu_1-\mu_2=d_0μ1μ2=d0时,ttt服从自由度为fffttt分布

平均值的成对二样本分析

成对观测值的ttt检验常用于两组数据均值是否相等的均值检验。
成对观测的样本以d1,d2,⋯ ,dnd_1,d_2,\cdots,d_nd1,d2,,dn表示nnn对观测值之差,则此时关于双样本均值差检验为:
t=d‾−d0sd/nt=\frac{\overline d - d_0}{s_d / \sqrt n}t=sd/ndd0
μ1−μ2=d0\mu_1-\mu_2=d_0μ1μ2=d0时,ttt服从t(n−1)t(n-1)t(n1)分布

总体方差已知,关于均值的检验

设样本x1,x2,⋯ ,xn1x_1,x_2,\cdots,x_{n_1}x1,x2,,xn1来自正态总体N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2),且总体方差σ2\sigma^2σ2已知,则关于总体均值μ\muμ的检验为:
z=x‾−μ0σ/nz=\frac{\overline x - \mu_0}{\sigma / \sqrt n}z=σ/nxμ0
μ=μ0\mu = \mu_0μ=μ0时,zzz检验统计量服从正态分布

总体方差未知,关于均值的检验

设样本x1,x2,⋯ ,xn1x_1,x_2,\cdots,x_{n_1}x1,x2,,xn1来自正态总体N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2),且总体方差σ2\sigma^2σ2未知。在这种情况下,用样本方差s2s^2s2代替σ2\sigma^2σ2,则此时关于总体均值μ\muμ的检验为:
t=x‾−μ0s/nt=\frac{\overline x - \mu_0}{s / \sqrt n}t=s/nxμ0
μ=μ0\mu = \mu_0μ=μ0时,根据抽样分布理论,统计量ttt服从t(n−1)t(n-1)t(n1)

总体均值已知,关于方差的检验

设样本x1,x2,⋯ ,xn1x_1,x_2,\cdots,x_{n_1}x1,x2,,xn1来自正态总体N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2),且总体均值μ\muμ已知,则此时关于总体方差的检验为:
χ2=∑(xi−μ)2σ02\chi^2=\frac{\sum(x_i-\mu)^2}{\sigma_0^2}χ2=σ02(xiμ)2
σ2=σ02\sigma^2=\sigma_0^2σ2=σ02时,χ2\chi^2χ2服从χ2(n−1)\chi^2(n-1)χ2(n1)

总体均值未知,关于方差的检验

设样本x1,x2,⋯ ,xn1x_1,x_2,\cdots,x_{n_1}x1,x2,,xn1来自正态总体N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2),且总体均值μ\muμ未知,用样本均值代替总体均值,则此时关于总体方差的检验为:
χ2=∑(xi−x‾)2σ02=(n−1)s2σ02\chi^2=\frac{\sum(x_i- \overline x)^2}{\sigma_0^2}=\frac{(n-1)s^2}{\sigma_0^2}χ2=σ02(xix)2=σ02(n1)s2
σ2=σ02\sigma^2=\sigma_0^2σ2=σ02时,χ2\chi^2χ2服从χ2(n−1)\chi^2(n-1)χ2(n1)


根据样本方差的抽样分布可知,样本方差服从自由度为n−1n-1n1χ2\chi^2χ2分布
(n−1)s2σ2~χ2(n−1)\frac{(n-1)s^2}{\sigma^2} \text{\textasciitilde} \chi^2(n-1)σ2(n1)s2~χ2(n1)
两个样本方差比的抽样分布服从FFF分布
s12s22⋅σ12σ22~F(n1−1,n2−1)\frac{s_1^2}{s_2^2} \cdot \frac{\sigma_1^2}{\sigma_2^2} \text{\textasciitilde} F(n_1-1,n_2-1)s22s12σ22σ12~F(n11,n21)
当总体服从正态分布且方差已知,样本均值xxx的抽样分布均为正态分布,其数学期望为总体均值μ\muμ,方差为σ2/n\sigma^2/nσ2/n,而样本均值经过标准化以后的随机变量则服从标准正态分布,即
z=x‾−μσn~N(0,1)z=\frac{\overline x - \mu}{\sigma\sqrt n} \text{\textasciitilde} N(0,1)z=σnxμ~N(0,1)
如果总体服从正态分布,则无论样本量如何,样本均值x‾\overline xx的抽样分布都服从正态分布。这时,只要总体方差σ2\sigma ^2σ2已知,即使在小样本的情况下。但如果总体方差未知,而且是在小样本的情况下,则需要用样本方差s2s^2s2代替σ2\sigma^2σ2,这时,样本均值经过标准化以后的随机变量则服从自由度为n−1n-1n1的t分布
t=x‾−μsn~t(n−1)t=\frac{\overline x - \mu}{s\sqrt n} \text{\textasciitilde} t(n-1)t=snxμ~t(n1)
如果总体服从正态分布但方差未知,或者总体并不服从正态分布,只要在大样本条件下,就可以使用样本方差代替总体方差,
z=x‾−μsn~N(0,1)z=\frac{\overline x - \mu}{s\sqrt n} \text{\textasciitilde} N(0,1)z=snxμ~N(0,1)
当两个总体都服从正态分布或两个总体不服从正态分布但两个样本都为大样本,根据抽样分布的知识可知,两个样本均值之差x‾1−x‾2\overline x_1 - \overline x_2x1x2的抽样分布服从期望值为μ1−μ2\mu_1-\mu_2μ1μ2,方差为σ12n1+σ22n2\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}n1σ12+n2σ22的正态分布,而两个样本均值之差经标准化以后服从正态分布,即
z=(x‾1−x‾2)−(μ1−μ2)σ12n1+σ22n2~N(0,1)z=\frac{(\overline x_1- \overline x_2)-(\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \text{\textasciitilde} N(0,1)z=n1σ12+n2σ22(x1x2)(μ1μ2)~N(0,1)
当两个总体的方差都未知时,可用两个样本方差代替总体总体方差

当两个总体的方差未知但相等时,需要用两个样本方差来估计,这时需要计算总体方差的合并估计量sp2s_p^2sp2,计算公式为
sp2=(n1−1)s12+(n2−1)s22n1+n2−2s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}sp2=n1+n22(n11)s12+(n21)s22
两个样本均值之差经标准化后服从自由度为n1+n2−2n_1+n_2-2n1+n22ttt分布,即
t=(x‾1−x‾2)−(μ1−μ2)sp1n1+1n2~t(n1+n2−2)t=\frac{(\overline x_1-\overline x_2) -(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \text{\textasciitilde} t(n_1+n_2-2)t=spn11+n21(x1x2)(μ1μ2)~t(n1+n22)
当两个总体的方差未知且不相等时,只要两个总体都服从正态分布,而且两个样本的样本量相等,
t=(x‾1−x‾2)−(μ1−μ2)s12n1+s22n2~t(n1+n2−2)t=\frac{(\overline x_1-\overline x_2) -(\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \text{\textasciitilde} t(n_1+n_2-2)t=n1s12+n2s22(x1x2)(μ1μ2)~t(n1+n22)
当两个总体的方差未知且不相等时,而两个样本的样本量不相等,两个样本均值之差服从自由度为n1+n2−2n_1+n_2-2n1+n22ttt分布,而是仅服从自由度为vvvttt分布
v=(s12n1+s22n2)2(s12/n1)2n1−1+(s22/n2)2n2−1v=\frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2}{\frac{(s_1^2/n_1)^2}{n_1-1} + \frac{(s_2^2/n_2)^2}{n_2-1}}v=n11(s12/n1)2+n21(s22/n2)2(n1s12+n2s22)2
t=(x‾1−x‾2)−(μ1−μ2)s12n1+s22n2~t(v)t=\frac{(\overline x_1-\overline x_2) -(\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \text{\textasciitilde} t(v)t=n1s12+n2s22(x1x2)(μ1μ2)~t(v)

P值

P值是进行假设检验决策的另一个依据,是最常用的一个统计学指标,统计和计量软件输出结构都有P值。通过比较检验统计量与临界值的大小的检验方法逐渐被P值检验所取代。

P值就是当原假设为真时,检验统计量大于或等于实际观测值的概率
P值是一种概率,一种在原假设为真的前提下,出现观测样本统计量的值及更极端情况下的概率
它是拒绝原假设的最小的显著性水平
它是通过抽样得到的样本数据计算到的显著性水平
它表示对原假设的支持程度,是用于确定是否应该拒绝原假设的一种方法

一般地,用XXX表示检验的统计量。当H0H_0H0为真时,可由样本数据计算出该统计量的值CCC,根据检验统计量XXX的具体分布,可求出P值。具体地说:
左侧检验的P值为检验统计量XXX小于样本统计值C的概率,P=P(X<C)P=P(X<C)P=P(X<C)
右侧检验的P值为检验统计量XXX大于样本统计值C的概率,P=P(X>C)P=P(X>C)P=P(X>C)
双侧检验的P值为检验统计量XXX落在样本统计值CCC为端点的尾部区域内的概率的2倍,P=2P(X>C)P=2P(X>C)P=2P(X>C)(当CCC位于分布曲线的右端时)或P=2P(X<C)P=2P(X<C)P=2P(X<C)(当CCC位于分布曲线的左端时)。若XXX服从正态分布和ttt分布,其分布曲线是关于纵轴对称,故其P值可表示为P=P{∣X∣<C}P=P\{|X|<C\}P=P{X<C}

P值就是当原假设为真时所得到的样本统计量观测值或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由的就越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟是显著的、中度显著的还是高度显著的,需要我们根据P值的大小和实际的数据来分析

Pandas

参数名常用值说明
axis0、1运算对应的轴
level整数或索引的级别名指定运算对应的级别
fill_value数值指定运算中出现的NaN的替代填充值
skipna布尔值运算是否跳过NaN
index序列指定行索引
columns序列指定列索引
numeric_only布尔值是否只针对数值进行运算
func可调用对象指定回调函数
inplace布尔值是否原地更新,若为否,则返回新对象
encoding“utf8”指定文本编码
dropna布尔值是否删除包含NaN的行

Pandas数值运算函数

如果指定level参数,则针对多级索引中指定级别中相同标签对应的元素的计算
常用参数:

  • axis 指定运算对应的轴
  • level 指定运算对应的索引级别
  • skipna 运算是否自动跳过NaN
df.mean() 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值