一元线性回归模型

前言

 本文主要介绍了一元线性回归模型的数学模型,回归参数估计,三种显著性检验(FF检验,R2判定系数,估计标准差),并给出了使用最小二乘法推导回归参数的详细过程。

1, 数学模型

 假设 Y=a+bX+ϵY=a+bX+ϵ ,其中:

  • XX是可控变量;

  • Y是随机变量

  • a+bXa+bXYY随着X变化而线性变化的部分;

  • ϵϵ是随机误差,它是其他的一切微小的,不确定的影响因素的总和,其值具有不可观测行,通常假定ϵN(0,σ2)ϵ∼N(0,σ2)

 函数f(X)=E(X|Y)=a+bXf(X)=E(X|Y)=a+bX称为一元线性回归函数,其中:

  • aa为回归常数,b为回归系数,aab统称为回归参数;
  • XX为回归自变量;
  • Y为回归因变量。

 假定(x1,y1),(x2,y2,,(xn,yn))(x1,y1),(x2,y2,⋯,(xn,yn))(X,Y)(X,Y)的一组观测值,则一元线性模型可以表示为

yi=a+bxi+ϵi,ϵiN(0,σ2),i=1,2,,n(8))(1)(1)(8)yi=a+bxi+ϵi,ϵi∼N(0,σ2),i=1,2,⋯,n)

 其中,各ϵiϵi相互独立。

2, 回归参数的估计

 使用最小二乘原理,估计回归参数aab,使得误差平方和i=1nϵ2=i=1n(yiabxi)2∑i=1nϵ2=∑i=1n(yi−a−bxi)2最小,

即:Q(a,b)=i=1n(yiabxi)2Q(a,b)=∑i=1n(yi−a−bxi)2取最小值。

 求QQ关于abb的一阶偏导数,并使它们为0,解得b的最小二乘估计为:

b=i=1n(xix¯¯¯)(yiy¯¯¯)2i=1n(xix¯¯¯)2=LxyLxx(9)(2)(2)(9)b=∑i=1n(xi−x¯)(yi−y¯)2∑i=1n(xi−x¯)2=LxyLxx

 其中:
  • x¯¯¯=1ni=1nxix¯=1n∑i=1nxi
  • y¯¯¯=1ni=1nyiy¯=1n∑i=1nyi
  • Lxy=i=1n(xix¯¯¯)(yiy¯¯¯)2Lxy=∑i=1n(xi−x¯)(yi−y¯)2
  • Lxx=i=1n(xix¯¯¯)2Lxx=∑i=1n(xi−x¯)2

 这样,bba的最小二乘估计可以写成

{b^=LxyLxxa^=y¯¯¯b^x¯¯¯(3)(3){b^=LxyLxxa^=y¯−b^x¯

 在得到a^a^b^b^后,称Y^=a^+b^XY^=a^+b^X为一元回归方程。

 通常取参数σ2=1n2i=2n(yia^b^xi)2σ2=1n−2∑i=2n(yi−a^−b^xi)2为参数σ2σ2的估计(最小二乘估计),并且是无偏估计。

3,回归方程显著性检验

 对于一元回归方程进行检验等于检验

H0:b=0H1:b0H0:b=0H1:b≠0
3.1 平方和的分解

 为寻找检验H0H0的方法,将XXY的线性影响与随机波动引起的变差分开,变差的大小用实际观察值yy与其均值y¯之差yy¯¯¯y−y¯来表示。
 而n次观察值的总变差可由离差的平方和SSTSST来表示

SST=i=1n(yiy¯¯¯)2(10)(10)SST=∑i=1n(yi−y¯)2

 上式被称为观察值y1,y2,,yny1,y2,⋯,yn的离差平方和。SSTSST反映了观察值yi(i=1,2,,n)yi(i=1,2,⋯,n)总的分散程度,对SSTSST进行分解,可得:
SST=i=1n(yiy¯¯¯)2=i=1n[(y^iy¯¯¯)+(yiy^)]2=i=1n(y^iy¯¯¯)2+i=1n(yiy^)2+2i=1n(y^iy¯¯¯)(y^iy^)(11)(11)SST=∑i=1n(yi−y¯)2=∑i=1n[(y^i−y¯)+(yi−y^)]2=∑i=1n(y^i−y¯)2+∑i=1n(yi−y^)2+2∑i=1n(y^i−y¯)(y^i−y^)

 可以证明i=1n(y^iy¯¯¯)(y^iy^)=0∑i=1n(y^i−y¯)(y^i−y^)=0,所以则有:
SST=i=1n(y^iy¯¯¯)2+i=1n(yiy^)2=SSR+SSE(12)(12)SST=∑i=1n(y^i−y¯)2+∑i=1n(yi−y^)2=SSR+SSE

 其中:
SSRSSE=i=1n(y^iy¯¯¯)2=i=1n(yiy^)2(13)(13)SSR=∑i=1n(y^i−y¯)2SSE=∑i=1n(yi−y^)2

SSRSSR叫做回归平方和,反映了yi(1,2,,n)yi(1,2,⋯,n)的分散程度,这种分散程度是由于YYX之间的线性关系引起的。

SSESSE叫做残差平方和,反映了yiyi与回归值y^iy^i的偏离程度,它是XXY的线性影响之外的其余因素产生的误差。

3.2 FF检验法

H0成立时,可以证明:

F=SSRSSE/(n2)F(1,n2)F=SSRSSE/(n−2)∼F(1,n−2)

 对于给定的显著性水平αα,拒绝域为W={F>Fα(1,n2)}W={F>Fα(1,n−2)},对于FF检验统计量的p值,如果p<αp<α,则拒绝H0H0,表明两个变量之间的线性关系显著,这种检验法成为FF检验法

3.3 判定系数法

 回归平方和SSR占总平方和SSTSST的比例称为判定系数,也称决定系数,记做R2R2,其计算公式为

R2=SSRSST=i=1n(y^iy¯¯¯)2i=1n(yiy¯¯¯)2R2=SSRSST=∑i=1n(y^i−y¯)2∑i=1n(yi−y¯)2

 在一元线性回归中,判定系数R2R2可以用来检验回归直线对数据的拟合程度,

 如果YY的变化和X相关,SSESSE=0,则SSTSST=SSRSSR,于是R2R2=1,拟合是完全的,

 如果YY的变化与X无关,此时,则R2R2=0。

 可见R2[0,1]R2∈[0,1]R2R2越接近于1,回归直线的拟合程度越好,R2R2越接近于0,回归直线拟合的程度越差。

3.4 估计标准误差

 估计标准误差是残差平方和SSESSE的均方根,即残差的标准差,用sese来表示,其计算公式为:

se=SSEnp1=i=1n(yiy^i)2np1se=SSEn−p−1=∑i=1n(yi−y^i)2n−p−1

 其中pp为自变量的个数。

se反映了用回归方程预测因变量时产生的预测误差的大小,因此从另一方面反映了回归直线的拟合程度。

4,最小二乘法公式推导

 下面进行进行(2)(2)式的推导。

 首先,原函数为

Q(a,b)=i=1n(yiabxi)2(4)(4)Q(a,b)=∑i=1n(yi−a−bxi)2

 对(4)(4)式分别对aab求一阶偏导数,得到下面公式:
Qa=i=1n2(yiabxi)(1)(5)(5)∂Q∂a=∑i=1n2(yi−a−bxi)(−1)

Qb=i=1n2(yiabxi)(xi)(6)(6)∂Q∂b=∑i=1n2(yi−a−bxi)(−xi)

 对(5)(5)​式,由一阶偏导数为0,可转化为:

Qa=i=1n(yiabxi)=0∂Q∂a=∑i=1n(yi−a−bxi)=0

 即:
ny¯¯¯nanbx¯¯¯=0ny¯−na−nbx¯=0

 所以求得aa的表达式为:
(7)a=y¯bx¯

 对(6)(6)式,由偏导数为0,可化简为:
i=1n(yiabxi)(xi)=i=1n(yixiaxibx2i)=0∑i=1n(yi−a−bxi)(xi)=∑i=1n(yixi−axi−bxi2)=0

 继续化简则有:
i=1n(yixiaxibx2i)=i=1nxiyianx¯¯¯i=1nx2i(8)(8)∑i=1n(yixi−axi−bxi2)=∑i=1nxiyi−anx¯−∑i=1nxi2

 将(7)(7) 式带入(8)(8)式,则有
i=1nxiyianx¯¯¯i=1nx2i=i=1nxiyi(y¯¯¯bx¯¯¯)nx¯¯¯i=1nx2i=i=1nxiyinx¯¯¯y¯¯¯+b(nx¯¯¯2i=1nx2i)=0(14)(14)∑i=1nxiyi−anx¯−∑i=1nxi2=∑i=1nxiyi−(y¯−bx¯)nx¯−∑i=1nxi2=∑i=1nxiyi−nx¯y¯+b(nx¯2−∑i=1nxi2)=0

 可得:
b=i=1nxiyibx¯¯¯y¯¯¯i=1nx2inx2i(9)(9)b=∑i=1nxiyi−bx¯y¯∑i=1nxi2−nxi2

 又有:
i=1n(xix¯¯¯)(yiy¯¯¯)=i=1nxiyix¯¯¯yixiy¯¯¯+x¯¯¯y¯¯¯)=i=1n(xiyix¯¯¯yixiy¯¯¯+x¯¯¯y¯¯¯)=i=1nxiyinx¯¯¯y¯¯¯nx¯¯¯y¯¯¯+nx¯¯¯y¯¯¯=i=1nxiyinx¯¯¯y¯¯¯(10)(10)∑i=1n(xi−x¯)(yi−y¯)=∑i=1n(xiyi−x¯yi−xiy¯+x¯y¯)=∑i=1n(xiyi−x¯yi−xiy¯+x¯y¯)=∑i=1nxiyi−nx¯y¯−nx¯y¯+nx¯y¯=∑i=1nxiyi−nx¯y¯

i=1n(xix¯¯¯)2=i=1nx2i2x¯¯¯xix¯¯¯2)=i=1nx2i2nx¯¯¯2+x¯¯¯2=i=1nx2inx¯¯¯2(11)(11)∑i=1n(xi−x¯)2=∑i=1n(xi2−2x¯xi−x¯2)=∑i=1nxi2−2nx¯2+x¯2=∑i=1nxi2−nx¯2

 将公式(10)(10)和公式(11)(11)带入公式(9)(9),即可得到公式(2)(2),即:

b=i=1n(xix¯¯¯)(yiy¯¯¯)2i=1n(xix¯¯¯)2=LxyLxx(15)(2)(2)(15)b=∑i=1n(xi−x¯)(yi−y¯)2∑i=1n(xi−x¯)2=LxyLxx

 最终得到aab的估计公式如下:
b^=i=1n(xix¯¯¯)(yiy¯¯¯)2i=1n(xix¯¯¯)2=LxyLxxa^=y¯¯¯b^x¯¯¯(13)(13){b^=∑i=1n(xi−x¯)(yi−y¯)2∑i=1n(xi−x¯)2=LxyLxxa^=y¯−b^x¯
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值