前言
本文主要介绍了一元线性回归模型的数学模型,回归参数估计,三种显著性检验(FF检验,R2判定系数,估计标准差),并给出了使用最小二乘法推导回归参数的详细过程。
1, 数学模型
假设 Y=a+bX+ϵY=a+bX+ϵ ,其中:
XX是可控变量;
Y是随机变量
a+bXa+bX是YY随着X变化而线性变化的部分;
ϵϵ是随机误差,它是其他的一切微小的,不确定的影响因素的总和,其值具有不可观测行,通常假定ϵ∼N(0,σ2)ϵ∼N(0,σ2)。
函数f(X)=E(X|Y)=a+bXf(X)=E(X|Y)=a+bX称为一元线性回归函数,其中:
- aa为回归常数,b为回归系数,aa和b统称为回归参数;
- XX为回归自变量;
- Y为回归因变量。
假定(x1,y1),(x2,y2,⋯,(xn,yn))(x1,y1),(x2,y2,⋯,(xn,yn))是(X,Y)(X,Y)的一组观测值,则一元线性模型可以表示为
yi=a+bxi+ϵi,ϵi∼N(0,σ2),i=1,2,⋯,n(8))(1)(1)(8)yi=a+bxi+ϵi,ϵi∼N(0,σ2),i=1,2,⋯,n)
其中,各ϵiϵi相互独立。
2, 回归参数的估计
使用最小二乘原理,估计回归参数aa和b,使得误差平方和∑i=1nϵ2=∑i=1n(yi−a−bxi)2∑i=1nϵ2=∑i=1n(yi−a−bxi)2最小,
即:Q(a,b)=∑i=1n(yi−a−bxi)2Q(a,b)=∑i=1n(yi−a−bxi)2取最小值。
求QQ关于a和bb的一阶偏导数,并使它们为0,解得b的最小二乘估计为:
b=∑i=1n(xi−x¯¯¯)(yi−y¯¯¯)2∑i=1n(xi−x¯¯¯)2=LxyLxx(9)(2)(2)(9)b=∑i=1n(xi−x¯)(yi−y¯)2∑i=1n(xi−x¯)2=LxyLxx
其中:
- x¯¯¯=1n∑i=1nxix¯=1n∑i=1nxi
- y¯¯¯=1n∑i=1nyiy¯=1n∑i=1nyi
- Lxy=∑i=1n(xi−x¯¯¯)(yi−y¯¯¯)2Lxy=∑i=1n(xi−x¯)(yi−y¯)2
- Lxx=∑i=1n(xi−x¯¯¯)2Lxx=∑i=1n(xi−x¯)2
这样,bb和a的最小二乘估计可以写成
{b^=LxyLxxa^=y¯¯¯−b^x¯¯¯(3)(3){b^=LxyLxxa^=y¯−b^x¯
在得到
a^a^和
b^b^后,称
Y^=a^+b^XY^=a^+b^X为一元回归方程。
通常取参数σ2=1n−2∑i=2n(yi−a^−b^xi)2σ2=1n−2∑i=2n(yi−a^−b^xi)2为参数σ2σ2的估计(最小二乘估计),并且是无偏估计。
3,回归方程显著性检验
对于一元回归方程进行检验等于检验
H0:b=0H1:b≠0H0:b=0H1:b≠0
3.1 平方和的分解
为寻找检验H0H0的方法,将XX对Y的线性影响与随机波动引起的变差分开,变差的大小用实际观察值yy与其均值y¯¯¯之差y−y¯¯¯y−y¯来表示。
而n次观察值的总变差可由离差的平方和SSTSST来表示
SST=∑i=1n(yi−y¯¯¯)2(10)(10)SST=∑i=1n(yi−y¯)2
上式被称为观察值
y1,y2,⋯,yny1,y2,⋯,yn的离差平方和。
SSTSST反映了观察值
yi(i=1,2,⋯,n)yi(i=1,2,⋯,n)总的分散程度,对
SSTSST进行分解,可得:
SST=∑i=1n(yi−y¯¯¯)2=∑i=1n[(y^i−y¯¯¯)+(yi−y^)]2=∑i=1n(y^i−y¯¯¯)2+∑i=1n(yi−y^)2+2∑i=1n(y^i−y¯¯¯)(y^i−y^)(11)(11)SST=∑i=1n(yi−y¯)2=∑i=1n[(y^i−y¯)+(yi−y^)]2=∑i=1n(y^i−y¯)2+∑i=1n(yi−y^)2+2∑i=1n(y^i−y¯)(y^i−y^)
可以证明
∑i=1n(y^i−y¯¯¯)(y^i−y^)=0∑i=1n(y^i−y¯)(y^i−y^)=0,所以则有:
SST=∑i=1n(y^i−y¯¯¯)2+∑i=1n(yi−y^)2=SSR+SSE(12)(12)SST=∑i=1n(y^i−y¯)2+∑i=1n(yi−y^)2=SSR+SSE
其中:
SSRSSE=∑i=1n(y^i−y¯¯¯)2=∑i=1n(yi−y^)2(13)(13)SSR=∑i=1n(y^i−y¯)2SSE=∑i=1n(yi−y^)2
SSRSSR叫做回归平方和,反映了
yi(1,2,⋯,n)yi(1,2,⋯,n)的分散程度,这种分散程度是由于
YY和
X之间的线性关系引起的。
SSESSE叫做残差平方和,反映了yiyi与回归值y^iy^i的偏离程度,它是XX对Y的线性影响之外的其余因素产生的误差。
3.2 FF检验法
H0成立时,可以证明:
F=SSRSSE/(n−2)∼F(1,n−2)F=SSRSSE/(n−2)∼F(1,n−2)
对于给定的显著性水平
αα,拒绝域为
W={F>Fα(1,n−2)}W={F>Fα(1,n−2)},对于
FF检验统计量的
p值,如果
p<αp<α,则拒绝
H0H0,表明两个变量之间的线性关系显著,这种检验法成为
FF检验法
3.3 判定系数法
回归平方和SSR占总平方和SSTSST的比例称为判定系数,也称决定系数,记做R2R2,其计算公式为
R2=SSRSST=∑i=1n(y^i−y¯¯¯)2∑i=1n(yi−y¯¯¯)2R2=SSRSST=∑i=1n(y^i−y¯)2∑i=1n(yi−y¯)2
在一元线性回归中,判定系数
R2R2可以用来检验回归直线对数据的拟合程度,
如果YY的变化和X相关,SSESSE=0,则SSTSST=SSRSSR,于是R2R2=1,拟合是完全的,
如果YY的变化与X无关,此时,则R2R2=0。
可见R2∈[0,1]R2∈[0,1],R2R2越接近于1,回归直线的拟合程度越好,R2R2越接近于0,回归直线拟合的程度越差。
3.4 估计标准误差
估计标准误差是残差平方和SSESSE的均方根,即残差的标准差,用sese来表示,其计算公式为:
se=SSEn−p−1−−−−−−−−√=∑i=1n(yi−y^i)2n−p−1−−−−−−−−−−⎷se=SSEn−p−1=∑i=1n(yi−y^i)2n−p−1
其中
pp为自变量的个数。
se反映了用回归方程预测因变量时产生的预测误差的大小,因此从另一方面反映了回归直线的拟合程度。
4,最小二乘法公式推导
下面进行进行(2)(2)式的推导。
首先,原函数为
Q(a,b)=∑i=1n(yi−a−bxi)2(4)(4)Q(a,b)=∑i=1n(yi−a−bxi)2
对
(4)(4)式分别对
aa和
b求一阶偏导数,得到下面公式:
∂Q∂a=∑i=1n2(yi−a−bxi)(−1)(5)(5)∂Q∂a=∑i=1n2(yi−a−bxi)(−1)
∂Q∂b=∑i=1n2(yi−a−bxi)(−xi)(6)(6)∂Q∂b=∑i=1n2(yi−a−bxi)(−xi)
对(5)(5)式,由一阶偏导数为0,可转化为:
∂Q∂a=∑i=1n(yi−a−bxi)=0∂Q∂a=∑i=1n(yi−a−bxi)=0
即:
ny¯¯¯−na−nbx¯¯¯=0ny¯−na−nbx¯=0
所以求得
aa的表达式为:
a=y¯¯¯−bx¯¯¯(7)
对
(6)(6)式,由偏导数为0,可化简为:
∑i=1n(yi−a−bxi)(xi)=∑i=1n(yixi−axi−bx2i)=0∑i=1n(yi−a−bxi)(xi)=∑i=1n(yixi−axi−bxi2)=0
继续化简则有:
∑i=1n(yixi−axi−bx2i)=∑i=1nxiyi−anx¯¯¯−∑i=1nx2i(8)(8)∑i=1n(yixi−axi−bxi2)=∑i=1nxiyi−anx¯−∑i=1nxi2
将
(7)(7) 式带入
(8)(8)式,则有
∑i=1nxiyi−anx¯¯¯−∑i=1nx2i=∑i=1nxiyi−(y¯¯¯−bx¯¯¯)nx¯¯¯−∑i=1nx2i=∑i=1nxiyi−nx¯¯¯y¯¯¯+b(nx¯¯¯2−∑i=1nx2i)=0(14)(14)∑i=1nxiyi−anx¯−∑i=1nxi2=∑i=1nxiyi−(y¯−bx¯)nx¯−∑i=1nxi2=∑i=1nxiyi−nx¯y¯+b(nx¯2−∑i=1nxi2)=0
可得:
b=∑i=1nxiyi−bx¯¯¯y¯¯¯∑i=1nx2i−nx2i(9)(9)b=∑i=1nxiyi−bx¯y¯∑i=1nxi2−nxi2
又有:
∑i=1n(xi−x¯¯¯)(yi−y¯¯¯)=∑i=1n(xiyi−x¯¯¯yi−xiy¯¯¯+x¯¯¯y¯¯¯)=∑i=1n(xiyi−x¯¯¯yi−xiy¯¯¯+x¯¯¯y¯¯¯)=∑i=1nxiyi−nx¯¯¯y¯¯¯−nx¯¯¯y¯¯¯+nx¯¯¯y¯¯¯=∑i=1nxiyi−nx¯¯¯y¯¯¯(10)(10)∑i=1n(xi−x¯)(yi−y¯)=∑i=1n(xiyi−x¯yi−xiy¯+x¯y¯)=∑i=1n(xiyi−x¯yi−xiy¯+x¯y¯)=∑i=1nxiyi−nx¯y¯−nx¯y¯+nx¯y¯=∑i=1nxiyi−nx¯y¯
∑i=1n(xi−x¯¯¯)2=∑i=1n(x2i−2x¯¯¯xi−x¯¯¯2)=∑i=1nx2i−2nx¯¯¯2+x¯¯¯2=∑i=1nx2i−nx¯¯¯2(11)(11)∑i=1n(xi−x¯)2=∑i=1n(xi2−2x¯xi−x¯2)=∑i=1nxi2−2nx¯2+x¯2=∑i=1nxi2−nx¯2
将公式(10)(10)和公式(11)(11)带入公式(9)(9),即可得到公式(2)(2),即:
b=∑i=1n(xi−x¯¯¯)(yi−y¯¯¯)2∑i=1n(xi−x¯¯¯)2=LxyLxx(15)(2)(2)(15)b=∑i=1n(xi−x¯)(yi−y¯)2∑i=1n(xi−x¯)2=LxyLxx
最终得到
aa和
b的估计公式如下:
⎧⎩⎨⎪⎪⎪⎪⎪⎪b^=∑i=1n(xi−x¯¯¯)(yi−y¯¯¯)2∑i=1n(xi−x¯¯¯)2=LxyLxxa^=y¯¯¯−b^x¯¯¯(13)(13){b^=∑i=1n(xi−x¯)(yi−y¯)2∑i=1n(xi−x¯)2=LxyLxxa^=y¯−b^x¯