统计学之方差分析(单因素)

本文详细介绍了方差分析的目的、实现方法及其在检验多个总体均值是否相等的应用。通过组内与组间误差的对比,利用F分布进行统计决策。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

方差分析


目的:

研究一个或多个分类型自变量与一个数值型因变量之间的关系。
1. 一个或多个分类型自变量
2. 一个数值型因变量


存在必要原因:
  1. 如果使用一般的假设检验方法,一次只能研究两个样本的关系,则研究nn个总体的均值u1u2u2u3u3、……unun,需要C2nCn2次检验。这样做,不仅繁琐,而且不断累积了错误的概率,导致犯第II型错误的概率增加到1(1α)Cn2。一般的讲,随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加(并非均值真的存在差别)。
  2. 方差分析同时考虑了所有样本,排除了错误累加的概率,从而避免拒绝一个真实的假设。

实现方法:

论述:检验多个总体均值是否相等的统计方法;
本质:研究分类型自变量对数值型因变量的影响;
方法:通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。


名词解释

因子AA

  • 所要检验的对象称为因素或因子factor

水平或处理α1α2······αn

  • 因素的不同表现称之为水平或处理treatment

观测值

  • 每个因子水平下得到的样本数据称为观测值。

原理
  1. 假设我们的观测值θθ,可能与A(α1α2αn)A(α1、α2、······、αn)这个因子直接紧密相关。
  2. 研究时(不知道怎么研究的),发现我们的得到的估测与预先知道的紧密相关不符,那么我们就开始问误差出现在了哪里?
    2.1. 组内误差> sum of squares for error > SSE

    每个水平α1α2αnα1、α2、······、αn的各样本数据与其组均值的误差,由于我们的假设各样本数据与其组均值本应该相等。此误差包含可能由于抽样导致的随机误差

    2.2. 组间误差> sum of squares for factor A > SSA

    每个水平α1α2αnα1、α2、······、αn与总体均值的误差,由于我们的假设各样本数据的均值与总体均值本应该相等。此误差可能包含由于抽样导致的随机误差,也可能包含 α1α2αnα1、α2、······、αn间本身存在的系统误差

    那么,总体误差 > sum squares for tatal > SST

    SST = SSA + SSE
在我们此次的试验当中,误差几乎不可避免,那么我们可以分析。若我们能够做到足够精确,系统误差应该是不存在的,而仅仅包含随机误差。这时SSASSE经过平均后的数值就应该非常接近,比值就会非常接近于11,得知 >> 我们的观测值θ,可能与A(α1α2αn)A(α1、α2、······、αn)这个因子直接紧密相关。

方差分析中的基本假设补充

1.每个总体都应该服从正态分布;
2. 各个总体的方差δ2δ2必须相等;
3. 观测值是独立的。


解决问题(单因素)


一、提出问题

假设因素AA有水平E(α1)=u1E(α2)=u2E(α2)=u2E(α3)=u3E(α3)=u3、····· 、E(αk)=ukE(αk)=uk、,要检验kk个水平(总体)的均值是否相等。

二、做出假设

H0:u1u1=u2u2=···=ukuk 即分类型自变量与数值型因变量没有显著关系
H1H1:u1u1u2u2、··· 、ukuk 不全相等 即分类型自变量与数值型因变量有显著关系

三、构建统计量(xijxij表示第ii个水平下,总数si中的第jj个观测值)

  1. 各样本(各总体中的随机样本)的均值
    x¯1=1s1j=1s1x1j

    x¯2=1s2j=1s2x2jx¯2=1s2∑j=1s2x2j
    ···
    x¯k=1skj=1skxkjx¯k=1sk∑j=1skxkj
    • 全部观测值的总体均值
      x¯¯=1s1+s2++ski=1ky=1sixijx¯¯=1s1+s2+···+sk∑i=1k∑y=1sixij
    • 各误差平方和,平方会避免正负抵消震荡带来的影响
      3.1. 总体误差
      SST=i=1ky=1si(xijx¯¯)2SST=∑i=1k∑y=1si(xij−x¯¯)2

      3.2. 组间误差
      SSA=i=1ksi(xi¯x¯¯)2SSA=∑i=1ksi·(xi¯−x¯¯)2

      3.3. 组内误差
      SSE=i=1ky=1si(xijx¯i)2SSE=∑i=1k∑y=1si(xij−x¯i)2
    • SSASSA是对随机误差和系统误差大小的度量,它反映了自变量对因变量的影响;SSESSE是对随机误差大小的度量,它反映了除自变量对因变量的影响之外,其他因素对因变量的影响(如:抽样误差),因此SSESSE也称为残差变量;SSTSST是对全部数据总误差的度量,它反映了自变量和残差变量的共同影响,因此SST=SSA+SSESST=SSA+SSE

      4.计算统计量

      为了消除各误差平方和的大小与观测值个数的相关性,我们设定均方mean square:

      MST=SSTs1+s2++sk1MST=SSTs1+s2+···+sk−1

      MSA=SSAk1MSA=SSAk−1

      MSE=SSEs1+s2++skkMSE=SSEs1+s2+···+sk−k

      补充自由度:所谓自由就是在规则之下的行为。例:A={x1,x2,x3,,xn}A={x1,x2,x3,···,xn}的均值E(A)=uE(A)=u,则AA的自由度就是n1,因为当我们定下规则E(A)=uE(A)=u时,AA中的元素只有前n1个元素是可以自由变化的,最后一个元素只能根据前n1n−1个元素来调节均值E(A)=uE(A)=u,变化不得。

      5.在两个正态分布的条件下,两个方差之比服从FF分布:

      F=MSAMSEF(k1,si+s2+···+skk)

      6.做出决策

      • 将统计量FF与给定的显著性水平α的临界值Fα(k1,s1+s2++skk)Fα(k−1,s1+s2+···+sk−k)进行比较,从而对原假设H0H0进行决策判断。
      统计量判断支持决策
      F>FαF>Fα拒绝原假设H0H0,表明u1u1u2u2、··· 、ukuk之间的差异是显著的,也就是说所检验的因素对观测值有影响
      F<FαF<Fα不拒绝原假设H0H0,没有证据表明u1u1u2u2、··· 、ukuk之间的差异是显著的,也就是说我们不能认为所检验的因素对观测值有影响
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值