方差分析与一元线性回归

本文深入探讨了方差分析(ANOVA)与一元线性回归之间的内在联系,通过数学推导揭示两者在统计检验、模型参数及原假设上的等价性,强调了ANOVA实际上是一种特殊的一元线性回归。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在一般的回归教材中,都不会提到经典的方差分析,而在数理统计教材中,方差分析又往往作为独立于回归分析的章节存在。所以我们一般不会去思考方差分析与回归分析之间的关系。而事实上,方差分析就是一种特殊的回归分析,oneway-anova和一元线性回归时完全等价的!

oneway-anova

举个栗子,一个因子A下有三个水平 A1,A2,A3A_1,A_2,A_3A1,A2,A3,我们要比较这三个水平间是否有显著的差异, 每一个AiA_iAi的观测都是 yi1,yi2,...,yiniy_{i1},y_{i2},...,y_{in_i}yi1,yi2,...,yini,各水平均值记为 μi{\mu}_iμi, 总体均值记为μ\muμ, 水平效应 ai=μ−μia_i=\mu-\mu_iai=μμi, 总观测数为 n=n1+n2+n3n=n_1+n_2+n_3n=n1+n2+n3
H0:a1=a2=a3=0H_0:a_1=a_2=a_3=0H0:a1=a2=a3=0
F=SA/fASe/fe∼F(fA,fe)=F(2,n−3)F=\frac{S_A/f_A}{S_e/f_e} \sim F(f_A,f_e) =F(2,n-3)F=Se/feSA/fAF(fA,fe)=F(2,n3)
其中,SAS_ASA 是组间偏差平方和,SeS_eSe 是组内偏差平方和。

一元线性回归

上述方差分析的目的在于检验3个水平间是否有差距,放在线性回归里,检验3个水平是否有差距的方法就是把三个水平上的观测值作为因变量,把水平的类别作为自变量,然后检验回归系数的显著性。
可以通过设置哑变量,实现将水平类别作为自变量。因为有3个水平,所以可设置2个哑变量x1,x2x_1,x_2x1,x2, 则3个水平对应的 (x1,x2)(x_1,x_2)(x1,x2) 取值分别为 (0,0), (1,0), (0,1)。再考虑上截距项,设计矩阵为:
XXX = (100......110......101......)n∗3\left( \begin{array}{ccc} 1&0&0\\..&..&..\\1&1&0\\..&..&..\\1&0&1\\..&..&.. \end{array} \right)_{n*3}1..1..1..0..1..0..0..0..1..n3

回归方程为:Y=Xβ+ϵY = X\beta +\epsilonY=Xβ+ϵ
因变量取值为:y=(y11,...,y1n1,y21,...,y2n2,y31,...,y3n3)Ty = (y_{11},...,y_{1n_1},y_{21},...,y_{2n_2},y_{31},...,y_{3n_3})^Ty=(y11,...,y1n1,y21,...,y2n2,y31,...,y3n3)T

使用最小二乘法解得:β^=(X′X)−1X′y=(μ1,−μ1+μ2,−μ1+μ3)T\hat{\beta} = (X'X)^{-1}X'y=(\mu_1,-\mu_1+\mu_2, -\mu_1+\mu_3)^Tβ^=(XX)1Xy=(μ1,μ1+μ2,μ1+μ3)T
H0:β1=β2=β3=0H_0:\beta_1=\beta_2=\beta_3=0H0:β1=β2=β3=0
F=SSR/pSSE/n−p−1∼F(p,n−p−1)=F(2,n−3)F=\frac{SSR/p}{SSE/n-p-1}\sim F(p,n-p-1)=F(2,n-3)F=SSE/np1SSR/pF(p,np1)=F(2,n3)

anova vs. 一元线性回归

上面可以看出,两个统计量服从的是一模一样的分布 F(2,n−3)F(2,n-3)F(2,n3)。那么从其他的角度看呢?

数值的关系
事实上,根据 SA,Se,SSR,SSES_A,S_e,SSR,SSESA,Se,SSR,SSE 的定义,以及上面求出的 β^=(μ1,−μ1+μ2,−μ1+μ3)T\hat{\beta} =(\mu_1,-\mu_1+\mu_2, -\mu_1+\mu_3)^Tβ^=(μ1,μ1+μ2,μ1+μ3)T, 我们可以得出数值上的关系:SA=SSRS_A=SSRSA=SSRSe=SSES_e=SSESe=SSE.

原假设的关系
对于anova的原假设 H0:a1=a2=a3=0H_0:a_1=a_2=a_3=0H0:a1=a2=a3=0 和线性回归的原假设H0:β1=β2=β3=0H_0:\beta_1=\beta_2=\beta_3=0H0:β1=β2=β3=0而言,都可以写为H0:μ1=μ2=μ3=0H_0:\mu_ 1=\mu_2=\mu_3=0H0:μ1=μ2=μ3=0.

参考文献

《概率论与数理统计》,茆诗松,P423-432
《应用回归分析》,何晓群,P71

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值