第2章-回归模型(1)-线性回归模型与估计

简介

最早接触线性回归,是在计量经济学中。最简单最基础的即是一元线性回归模型。通过一元线性回归可以衍生出了许多模型,所以学好一元线性回归是非常有必要的,是目前所有回归模型的基础。即使跳出统计、计量的领域,到了数据挖掘、人工智能的领域,线性回归模型也是打好基础的重中之重。

谈到模型之前,样本数据的类型也是值得探讨的。按照数据截取的方向划分,有三类:

  1. 横截面数据(cross section data)
  2. 时间序列(time series)
  3. 两者混合的面板数据(panel data)也叫纵面数据(longitudinal section data)

不同的数据类型,对应的模型选择也大不相同,比如有专门的时间序列模型参见后续将要写的第二十二章内容,面板数据模型,参见第八章。
线性回归,一般研究的都是横截面数据(简称截面数据),数据挖掘、人工智能重点模型大都也都是选择截面数据。

第二、三、八等章均是主要从统计的回归模型或者说计量经济学的模型角度来讨论的。第九章以后主要是从数据挖掘、人工智能的角度来讨论。
回归模型偏向对数值型变量的估值,而挖掘模型更偏向判别离散结果,如这个图片中的数字是0-9中的哪一个。

正文

一,建立回归模型的方法论

步骤名称说明
1理论或假说的陈述凯恩斯设想:边际消费倾向
2数学模型的设定准确的确定性的模型: Y=β1+β2X,∥β2∥&lt;1Y=β_1+β_2X,\|β_2\|&lt;1Y=β1+β2Xβ2<1
3回归模型(或计量经济学模型)的设定非确定性模型-随机变量(误差项): Y=β1+β2X+μY=β_1+β_2X+μY=β1+β2X+μ
模型设置错误会产生选择性偏误
4获得数据自然科学来自于实验、社会科学来自于非实验
5模型的估计运用统计回归分析方法
6模型的检验统计学检验:拟合优度、显著性
计量经济学检验:误差项的正态性 、序列相关,异方差,多重共线性等
预测检验:主要是检验参数估计量的稳定性以及对样本容量变化时的灵敏度,即所谓超样本特性。
7预测或预报结构分析,经济预测,政策评价,检验与发展经济理论
8利用模型做出决策根据结果给定建议或方案
备注1:预测检验的具体检验方法为:
  • 利用扩大了的样本重新估计模型参数的新估计值,与原来估计值比较,并检验二者差异的显著性;
  • 将模型用于样本以外预测,将预测值与实际观测值进行比较,并检验二者差异的显著性
备注2:结构分析的方法:
  • 弹性分析,某一变量的相对变化引起的另一变量的相对变化,即变量的变化率之比,比率关系
  • 乘数分析,某一变量的绝对变化引起的另一变量的绝对变化,即变量的变化之比,倍数关系
  • 比较静力分析,经济系统不同平衡位置之间的联系

二,一元线性回归模型

1,总体回归函数

(1) 总体回归函数 (又叫条件期望函数)

E(E(E(Y|Xi)=f(Xi)X_i)=f(X_i)Xi)=f(Xi)
表示,给定XiX_iXi的条件下,总体Y的均值与XiX_iXi存在着某种函数关系f()。
该函数关系f()的形式是一个重要问题,一般依照某种理论假设或实际经验等给出。

备注:回归、回归方程、回归函数、回归模型不加以区分,均代表相同意思。

(2) 当f()为一元线性假设时,总体回归函数如下:

E(E(E(Y|Xi)=β0+β1XX_i)=β_0+β_1XXi)=β0+β1X
β0、β1β_0、β_1β0β1分别是线性函数的截距、斜率,统称回归系数。

(3) 对于线性的解释

线性举例非线性举例
对变量为线性Y=β0+β1XY=β_0+β_1XY=β0+β1XY=β0+β1X2Y=β_0+β_1X^2Y=β0+β1X2
对参数为线性Y=β0+β1XY=β_0+β_1XY=β0+β1XY=β0+β12XY=β_0+β_1^2XY=β0+β12X

两种解释中,我们定义所讨论的“线性回归模型”中的“线性”是指的针对于参数为线性,即回归系数为一次方出现的模型,因此对于解释变量X为非线性、可多次方出现的情况,即后续要讨论的广义线性模型。

(4) 误差项

我们可以得到,样本值与总体回归函数的差值
ui=Yi−E(u_i = Y_i -E(ui=YiE(Y|Xi)=Yi−(β0+β1X)X_i)=Y_i -(β_0+β_1X)Xi)=Yi(β0+β1X)

Yi=E(Y_i = E(Yi=E(Y|Xi)+ui=β0+β1X+uiX_i) + u_i =β_0+β_1X+u_iXi)+ui=β0+β1X+ui

如何理解上述方程?

将其理解为两个组成部分

  • E(E(E(Y|Xi)X_i)Xi)表示给定X后Y的平均值,代表系统性的或确定性的部分
  • uiu_iui表示所有可能会影响到Y但是有没有包括进回归模型中的那些变量的代替或代理变量,代表随机或非系统性的部分
  • 如果这些没有包括进模型的变量,与X不相关,且对于模型起不到决定性作用,那么上述方程没有什么问题;如果相反,则会出现omitted variables bias的情况

把等式两边取条件期望
Yi=E(Y_i = E(Yi=E(Y|Xi)+uiX_i) + u_iXi)+ui

E(Yi∣Xi)=E(E(E(Y_i|X_i) = E(E(E(YiXi)=E(E(Y|Xi))+E(ui∣Xi)X_i)) + E(u_i|X_i)Xi))+E(uiXi)

E(Yi∣Xi)=E(E(Y_i|X_i) = E(E(YiXi)=E(Y|Xi)+E(ui∣Xi)X_i) + E(u_i|X_i)Xi)+E(uiXi)

E(Yi∣Xi)=E(E(Y_i|X_i) = E(E(YiXi)=E(Y|Xi)X_i)Xi)

E(ui∣Xi)=0E(u_i|X_i)=0E(uiXi)=0
如果想让回归函数对应的回归曲线穿过Y的条件期望,则随机扰动项,即误差项的条件均值为零。

2,样本回归函数

通过样本数据,样本回归模型的结果如下:

Y^=β0^+β1^Xi\hat{Y}=\hat{β_0}+\hat{β_1}X_iY^=β0^+β1^Xi

加入随机形式的表达如下:

Y=β0^+β1^Xi+ui^Y=\hat{β_0}+\hat{β_1}X_i+\hat{u_i}Y=β0^+β1^Xi+ui^

所以,我们能够得到
β0^\hat{β_0}β0^β0β_0β0的估计量
β1^\hat{β_1}β1^β1β_1β1的估计量
μi^\hat{μ_i}μi^μiμ_iμi的估计量,表示样本与总体的差异

每次总体抽样的结果不一样,得到的样本回归函数也不同,那如何能够让样本回归函数尽可能的趋近于总体回归函数呢?接下来我们研究模型的参数估计。

三,一元线性模型的估计量

最经典的线性回归模型的估计方法是普通最小二乘(Ordinary Least Squares, OLS)估计方法,除此之外还有极大似然(Maximum Likelihood)估计方法,对于一般线性回归模型,二者得到的结果是相同的。

备注:以上方法的估计量实际是点估计,与点估计对应的,还有区间估计,但是区间估计需要有概率分布的信息。
1,OLS

根据之前的说明,我们知道,当用样本来估计总体时,将产生误差项

Yi=Yi^+μi^=β0^+β1^Xi+μi^Y_i = \hat{Y_i} +\hat{μ_i} =\hat{β_0}+\hat{β_1}X_i+\hat{μ_i}Yi=Yi^+μi^=β0^+β1^Xi+μi^

μi^=Yi−Yi^=Yi−β0^−β1^Xi\hat{μ_i} = Y_i - \hat{Y_i} =Y_i-\hat{β_0}-\hat{β_1}X_iμi^=YiYi^=Yiβ0^β1^Xi

OLS的思想即是求得回归参数的估计量,使得∑μ^i2\sum{\hat{μ}^2_i}μ^i2最小,即

目标函数最小
O = ∑μ^i2=∑(Yi−β0^−β1^Xi)2\sum{\hat{μ}^2_i}=\sum(Y_i-\hat{β_0}-\hat{β_1}X_i)^2μ^i2=(Yiβ0^β1^Xi)2

求目标函数极小值的过程:

  • ∂O∂β0\frac{\partial O}{\partialβ_0}β0O=2∑(Yi−β0^−β1^Xi)∗(−1)=∑μi^=02\sum(Y_i-\hat{β_0}-\hat{β_1}X_i)*(-1)=\sum \hat{μ_i}=02(Yiβ0^β1^Xi)(1)=μi^=0
  • ∂O∂β1\frac{\partial O}{\partialβ_1}β1O=2∑(Yi−β0^−β1^Xi)∗(−Xi)=∑μi^Xi=02\sum(Y_i-\hat{β_0}-\hat{β_1}X_i)*(- X_i)=\sum \hat{μ_i}X_i=02(Yiβ0^β1^Xi)(Xi)=μi^Xi=0


∑Yi−nβ0^−β1^∑Xi=0\sum Y_i-n\hat{β_0}- \hat{β_1}\sum X_i=0Yinβ0^β1^Xi=0……………………………………等式1
∑XiYi−β0^∑Xi−β1^∑Xi2=0\sum X_iY_i-\hat{β_0}\sum X_i-\hat{β_1}\sum X_i^2=0XiYiβ0^Xiβ1^Xi2=0……………………………等式2

等式1,同时除n变换

∑Yi/n−β0^−β1^∑Xi/n=0\sum Y_i/n-\hat{β_0}- \hat{β_1}\sum X_i/n=0Yi/nβ0^β1^Xi/n=0

y‾−β0^−β1^x‾=0\overline{y}-\hat{β_0}-\hat{β_1}\overline{x}=0yβ0^β1^x=0

(其中,y‾=∑Yi/n,x‾=∑Xi/n\overline{y}=\sum Y_i/n,\overline{x}=\sum X_i/ny=Yi/n,x=Xi/n)

  • β0^=y‾−β1^x‾=0\hat{β_0} =\overline{y}-\hat{β_1}\overline{x}=0β0^=yβ1^x=0

β0^\hat{β_0}β0^代入到等式2,

∑XiYi−(y‾−β1^x‾)∑Xi−β1^∑Xi2=0\sum X_iY_i-(\overline{y}-\hat{β_1}\overline{x})\sum X_i-\hat{β_1}\sum X_i^2=0XiYi(yβ1^x)Xiβ1^Xi2=0

∑XiYi−y‾∑Xi+β1^x‾∑Xi−β1^∑Xi2=0\sum X_iY_i-\overline{y}\sum X_i+\hat{β_1}\overline{x}\sum X_i-\hat{β_1}\sum X_i^2=0XiYiyXi+β1^xXiβ1^Xi2=0

∑XiYi−y‾∑Xi=β1^(∑Xi2−x‾∑Xi)\sum X_iY_i-\overline{y}\sum X_i=\hat{β_1}(\sum X_i^2-\overline{x}\sum X_i)XiYiyXi=β1^(Xi2xXi)

β1^=∑XiYi−y‾∑Xi∑Xi2−x‾∑Xi=∑(XiYi−y‾Xi)∑(Xi2−x‾Xi)=∑(XiYi−y‾Xi−x‾Yi+x‾Yi)∑(Xi2−2x‾Xi+x‾Xi)\hat{β_1}=\frac{\sum X_iY_i-\overline{y}\sum X_i}{\sum X_i^2-\overline{x}\sum X_i}=\frac{\sum (X_iY_i-\overline yX_i)}{\sum (X_i^2-\overline xX_i)}=\frac{\sum (X_iY_i-\overline yX_i-\overline xY_i+\overline xY_i)}{\sum (X_i^2-2\overline xX_i+\overline xX_i)}β1^=Xi2xXiXiYiyXi=(Xi2xXi)(XiYiyXi)=(Xi22xXi+xXi)(XiYiyXixYi+xYi)

因为
∑x‾Yi=x‾∑Yi=nxy‾=∑xy‾\sum\overline xY_i=\overline x\sum Y_i=n\overline{xy}=\sum \overline{xy}xYi=xYi=nxy=xy
同理
∑x‾Xi=x‾∑Xi=nx‾2=∑x‾2\sum\overline xX_i=\overline x\sum X_i=n\overline{x}^2=\sum \overline{x}^2xXi=xXi=nx2=x2

所以

  • β1^=∑(XiYi−y‾Xi−x‾Yi+x‾Yi)∑(Xi2−2x‾Xi+x‾Xi)=∑(XiYi−y‾Xi−x‾Yi+xy‾)∑(Xi2−2x‾Xi+x‾2)=∑(Xi−x‾)(Yi−y‾)∑(Xi−x‾)2\hat{β_1}=\frac{\sum (X_iY_i-\overline yX_i-\overline xY_i+\overline xY_i)}{\sum (X_i^2-2\overline xX_i+\overline xX_i)}=\frac{\sum (X_iY_i-\overline yX_i-\overline xY_i+\overline {xy})}{\sum (X_i^2-2\overline xX_i+\overline x^2)}=\frac{\sum (X_i-\overline x)(Y_i-\overline y)}{\sum(X_i-\overline x)^2}β1^=(Xi22xXi+xXi)(XiYiyXixYi+xYi)=(Xi22xXi+x2)(XiYiyXixYi+xy)=(Xix)2(Xix)(Yiy)

另外根据等式2,得

∑μi^Xi=(Yi−β0−β1X1)Xi=0\sum\hat{μ_i}X_i=(Y_i -β_0-β_1X_1)X_i=0μi^Xi=(Yiβ0β1X1)Xi=0……………………………等式3

cov(Xi,μi^)=E(Xi−E(x))(μi^−E(μ))=E(Xiμ^i)−E(Xi)E(μ^i)cov(X_i,\hat{μ_i})=E(X_i-E(x))(\hat{μ_i}-E(μ))=E(X_i\hat μ_i)-E(X_i)E(\hat μ_i)cov(Xi,μi^)=E(XiE(x))(μi^E(μ))=E(Xiμ^i)E(Xi)E(μ^i)

因为E(μ^i)=0E(\hat μ_i)=0E(μ^i)=0,所以

cov(Xi,μi^)=E(Xiμ^i)=∑μi^Xin=0cov(X_i,\hat{μ_i})=E(X_i\hat μ_i)=\frac{\sum\hat{μ_i}X_i}{n}=0cov(Xi,μi^)=E(Xiμ^i)=nμi^Xi=0
即,残差μ^\hat{μ}μ^XiX_iXi不相关

2,最小二乘回归的基本假定
假设假设说明解释
解释变量假设确定性假设X是固定值、非随机变量保证模型可建的基本假设-因为模型是条件期望即条件回归
非完全共线性假设共线性导致解释变量冗余完全共线性导致求解不唯一,部分共线性导致求解不稳定
与残差不相关cov(Xi,μi)=0或E(Xi∗μi)=0cov(X_i,μ_i)=0 或 E(X_i*μ_i)=0cov(Xi,μi)=0E(Xiμi)=0由OLS估计,残差平方和对参数β1β_1β1求偏导数为零求得
假设假设说明解释
随机残差项假设零均值假设E(μiμ_iμi|XiX_iXi)=0带有截距项的OLS估计中可推导出
同方差假设var(μiμ_iμi|XiX_iXi)=σ2σ^2σ2如果残差同方差成立,则var(yiy_iyi|XiX_iXi)=σ2σ^2σ2也成立
序列不相关var(μi,μjμ_i, μ_jμi,μj|Xi,XjX_i, X_jXi,Xj)=0, i≠j
正态性假设μiμ_iμi~N(0,σ2)N(0,σ^2)N(0,σ2)参数估计时不需要正态性假设,估计量推断时需要
3,估计量的均值与方差

我们已知

β1^=∑(Xi−x‾)(Yi−y‾)∑(Xi−x‾)2\hat{β_1}=\frac{\sum (X_i-\overline x)(Y_i-\overline y)}{\sum(X_i-\overline x)^2}β1^=(Xix)2(Xix)(Yiy)β0^=y‾−β1^x‾=0\hat{β_0} =\overline{y}-\hat{β_1}\overline{x}=0β0^=yβ1^x=0

如果对总体数据进行中心化处理,即xi=Xi−x‾,yi=Yi−y‾x_i = X_i-\overline x, y_i = Y_i-\overline yxi=Xix,yi=Yiy,则

β1^=∑xiyi∑xi2\hat{β_1}=\frac{\sum x_iy_i}{\sum x_i^2}β1^=xi2xiyi

由于X是固定变量,令ki=xi∑xi2令k_i=\frac{x_i}{\sum x_i^2}ki=xi2xi,则

  • β1^=∑kiyi\hat{β_1}=\sum k_iy_iβ1^=kiyi(………………线性的)
    β1^=∑ki(β0+β1xi+μi)=∑(β0ki+β1kixi+kiμi)\hat{β_1}=\sum k_i(β_0+β_1x_i+μ_i)=\sum (β_0k_i+β_1k_ix_i+k_iμ_i)β1^=ki(β0+β1xi+μi)=(β0ki+β1kixi+kiμi)

又因为数据做了中心化处理,所以∑xi=0,所以∑ki=0\sum x_i=0,所以\sum k_i=0xi=0,ki=0,则

β1^=β0∑ki+∑β1kixi+∑kiμi=β1∑kixi+∑kiμi\hat{β_1}=β_0\sum k_i+\sum β_1k_ix_i+ \sum k_iμ_i=β_1\sum k_ix_i+ \sum k_iμ_iβ1^=β0ki+β1kixi+kiμi=β1kixi+kiμi

β1^=β1+∑kiμi\hat{β_1}=β_1+\sum k_iμ_iβ1^=β1+kiμi

E(β1^)=E(β1+∑kiμi)=E(β1)+E(∑kiμi)=E(β1)+∑kiE(μi)E(\hat{β_1})=E(β_1+\sum k_iμ_i)=E(β_1)+E(\sum k_iμ_i)=E(β_1)+\sum k_iE(μ_i)E(β1^)=E(β1+kiμi)=E(β1)+E(kiμi)=E(β1)+kiE(μi)

  • E(β1^)=E(β1)=β1E(\hat{β_1})=E(β_1)=β_1E(β1^)=E(β1)=β1(………………无偏性的)

var(β1^)=E(β1^−E(β1^))2=E(β1^−β1))2=E(∑kiμi)2var(\hat{β_1})=E(\hat{β_1}-E(\hat{β_1}))^2=E(\hat{β_1}-β_1))^2=E(\sum k_iμ_i)^2var(β1^)=E(β1^E(β1^))2=E(β1^β1))2=E(kiμi)2

因为假设残差不自相关E(μi,μj)=0E(μ_i,μ_j)=0E(μi,μj)=0,所以展开平方公式,得
var(β1^)=E(k12μ12+k22μ22+...+kn2μn2)=σ2∑ki2var(\hat{β_1})=E(k_1^2μ_1^2+k_2^2μ_2^2+...+k_n^2μ_n^2)=σ^2\sum k_i^2var(β1^)=E(k12μ12+k22μ22+...+kn2μn2)=σ2ki2

  • var(β1^)=σ2∑xi2var(\hat{β_1})=\frac{σ^2}{\sum x_i^2}var(β1^)=xi2σ2
4,高斯-马尔可夫定理

在上述给定的经典线性回归模型的假定下,OLS的估计量是BLUE的,即最佳线性无偏估计量(best linear unbiased estimatior,BLUE):

  • 线性的:参数线性
  • 无偏性:期望值等于真实值
  • 有效性:最小方差的无偏估计量
5,最大似然估计

除上述假设外,若残差项再服从独立且正态分布NID(0,σ2)NID(0,σ^2)NID(0,σ2)假设,则我们可以通过ML进行估计。
ML估计的残差方差是有偏的,但是在大样本的情况下,趋于一致性。
所以ML又叫大样本方法,并且ML除了线性模型,也可以对非线性模型进行估值。

Y=Y^+μ=E(Y∣X)+μ=β^0+β^1X+μY =\hat Y + μ=E(Y|X)+μ=\hat β_0+\hat β_1X+μY=Y^+μ=E(YX)+μ=β^0+β^1X+μ
μμμ~NID(0,σμ2)NID(0,σ_μ^2)NID(0,σμ2)
μμμ的线性组合服从的分布不变,
且又有残差有零均值假设E(μ|X)=0,则
E(Y∣X)=E(Y∣X)+E(μ∣X)=E(Y∣X)=β^0+β^1XE(Y|X)=E(Y|X)+E(μ|X)=E(Y|X)=\hat β_0+\hat β_1XE(YX)=E(YX)+E(μX)=E(YX)=β^0+β^1X

因为Y^\hat YY^是回归得到的固定值,非随机变量

var(Y)=var(Y^+μ)=var(μ)=σμ2var(Y)=var(\hat Y + μ)=var(μ)=σ_μ^2var(Y)=var(Y^+μ)=var(μ)=σμ2

所以,YYY~NID(β^0+β^1X,σμ2)NID(\hat β_0+\hat β_1X, σ_μ^2)NID(β^0+β^1X,σμ2)
得到yiy_iyi的概率密度

P(yi)=1σ2πexp(−12σ2(yi−β^0−β^1xi)2)P(y_i)=\frac{1}{σ\sqrt 2π}exp(-\frac{1}{2σ^2}(y_i - \hat β_0-\hat β_1x_i)^2)P(yi)=σ2π1exp(2σ21(yiβ^0β^1xi)2)

定义目标函数L

L(β^0,β^,σ2)=P(y1)⋅P(y2)...⋅P(yn)=1(σ2π)nexp(−12σ2∑i=1i=n(yi−β^0−β^1xi)2)L(\hat β_0,\hat β,σ^2)=P(y_1)·P(y_2)...·P(y_n)=\frac{1}{(σ\sqrt 2π)^n}exp(-\frac{1}{2σ^2}\sum_{i=1}^{i=n}(y_i - \hat β_0-\hat β_1x_i)^2)L(β^0,β^,σ2)=P(y1)P(y2)...P(yn)=(σ2π)n1exp(2σ21i=1i=n(yiβ^0β^1xi)2)

L∗=ln(L)=−nln(σ2π)−12σ2∑i=1i=n(yi−β^0−β^1xi)2L^*=ln(L)=-nln(σ\sqrt 2π)-\frac{1}{2σ^2}\sum_{i=1}^{i=n}(y_i - \hat β_0-\hat β_1x_i)^2L=ln(L)=nln(σ2π)2σ21i=1i=n(yiβ^0β^1xi)2

L∗L^*L求极大值,即是等价于对∑i=1i=n(yi−β^0−β^1xi)2\sum_{i=1}^{i=n}(y_i - \hat β_0-\hat β_1x_i)^2i=1i=n(yiβ^0β^1xi)2求极小值,等价于OLS的目标函数

因为目标函数一致,所以求得的参数一致。

备注:极大似然法估计出的回归参数与OLS一致,但是对于残差项的方差则是有偏的,随着样本量的增加是渐进无偏的。

四,一元线性回归模型的评价-统计学检验

1,拟合优度R2R^2R2

由回归方程
Yi=β0^+β1^Xi+μ^iY_i=\hat{β_0} + \hat{β_1}X_i+\hat μ_iYi=β0^+β1^Xi+μ^i
代入均值,我们可得
Y‾i=β0^+β1^X‾i\overline Y_i=\hat{β_0} + \hat{β_1}\overline X_iYi=β0^+β1^Xi
两式相减,得
Yi−Y‾i=β1^(Xi−X‾)+μ^iY_i-\overline Y_i=\hat{β_1}(X_i-\overline X)+\hat μ_iYiYi=β1^(XiX)+μ^i

总平方和为
∑(Yi−Y‾i)2=∑[β1^(Xi−X‾)+μ^i]2=∑β1^2(Xi−X‾)2+∑μ^i2+2β1^∑μ^i(Xi−X‾)\sum (Y_i-\overline Y_i)^2=\sum[\hat{β_1}(X_i-\overline X)+\hat μ_i]^2=\sum\hat{β_1}^2(X_i-\overline X)^2+\sum \hat μ_i^2+2\hat{β_1}\sum \hat μ_i(X_i-\overline X)(YiYi)2=[β1^(XiX)+μ^i]2=β1^2(XiX)2+μ^i2+2β1^μ^i(XiX)

由于等式3,知
∑μ^iXi=0\sum\hat μ_iX_i=0μ^iXi=0∑μ^i=0\sum\hat μ_i=0μ^i=0
所以,2β1^∑μ^i(Xi−X‾)=∑μ^i⋅2β1^(Xi−X‾)=02\hat{β_1}\sum \hat μ_i(X_i-\overline X)=\sum \hat μ_i·2\hat{β_1}(X_i-\overline X)=02β1^μ^i(XiX)=μ^i2β1^(XiX)=0

总平方和为
∑(Yi−Y‾i)2=∑β1^2(Xi−X‾)2+∑μ^i2=∑(Y^i−Y‾)2+∑μ^i2\sum (Y_i-\overline Y_i)^2=\sum\hat{β_1}^2(X_i-\overline X)^2+\sum \hat μ_i^2= \sum (\hat Y_i-\overline Y)^2+\sum \hat μ_i^2(YiYi)2=β1^2(XiX)2+μ^i2=(Y^iY)2+μ^i2

总平方和(TSS) = 回归平方和(ESS) + 残差平方和(RSS)
在这里插入图片描述

我们定义拟合优度(又叫判定系数)为:
R2=ESSTSS=1−RSSTSS=1−∑μ2∑(Yi−Y‾i)2R^2 =\frac{ESS}{TSS}=1-\frac{RSS}{TSS}=1-\frac{\sum μ^2}{\sum (Y_i-\overline Y_i)^2}R2=TSSESS=1TSSRSS=1(YiYi)2μ2

因为β1=∑(Xi−x‾)(Yi−y‾)∑(Xi−x‾)2β_1=\frac{\sum (X_i-\overline x)(Y_i-\overline y)}{\sum(X_i-\overline x)^2}β1=(Xix)2(Xix)(Yiy),代入得

R2=ESSTSS=∑β1^2(Xi−X‾)2∑(Yi−Y‾i)2=∑(Xi−x‾)2(Yi−y‾)2∑(Xi−X‾)2∑(Yi−Y‾i)2=[cov(Xi,Yi)]2σx2σy2R^2 =\frac{ESS}{TSS}=\frac{\sum\hat{β_1}^2(X_i-\overline X)^2}{\sum (Y_i-\overline Y_i)^2}=\frac{\sum (X_i-\overline x)^2(Y_i-\overline y)^2}{\sum(X_i-\overline X)^2\sum (Y_i-\overline Y_i)^2}=\frac{[cov(X_i,Y_i)]^2}{σ_x^2σ_y^2}R2=TSSESS=(YiYi)2β1^2(XiX)2=(XiX)2(YiYi)2(Xix)2(Yiy)2=σx2σy2[cov(Xi,Yi)]2

所以,R2=person相关系数的平方R^2=person相关系数的平方R2=person

注意1:对于截距项是零的回归模型,OLS目标函数只能得到一个偏导数方程,无法推论出∑μ^i=0\sum \hat μ_i=0μ^i=0,则

∑(Yi−Y‾i)2=∑(Y^i−Y‾)2+∑μ^i2+∑μ^i⋅2β1^(Xi−X‾)\sum (Y_i-\overline Y_i)^2= \sum (\hat Y_i-\overline Y)^2+\sum \hat μ_i^2+\sum \hat μ_i·2\hat{β_1}(X_i-\overline X)(YiYi)2=(Y^iY)2+μ^i2+μ^i2β1^(XiX)

即过原点的回归模型来说,拟合优度R2R^2R2并不保证非负数。

注意2:要避免进入R2R^2R2陷阱,即过度追求高R2R^2R2的值,低值并非意味着模型没有价值。
2,残差项的正态性假设

我们假定残差项:正态且独立分布,即μ~ NID(0,σ2)NID(0,σ^2)NID(0,σ2)

理由如下:

  • 根据中心极限定理,大部分情况都会符合正态分布
  • 如果假设成立,β0、β1β_0、β_1β0β1是残差μ的线性组合,也将符合正态分布,简化了假设检验的工作
  • 理论分布比较简单
    对于不符合正态分布的情况,我们会有相应的处理方式。
3,方程的显著性检验-F检验(方差分析)

对于方程来说,如果变量的参数都是零,则说明方程是无效的。
为了验证方程的显著性,我们通过对总体平方和的分解,来构造方差分析中的F统计量。


∑(Yi−Y‾i)2=∑β1^2(Xi−X‾)2+∑μ^i2=∑(Y^i−Y‾)2+∑μ^i2\sum (Y_i-\overline Y_i)^2=\sum\hat{β_1}^2(X_i-\overline X)^2+\sum \hat μ_i^2= \sum (\hat Y_i-\overline Y)^2+\sum \hat μ_i^2(YiYi)2=β1^2(XiX)2+μ^i2=(Y^iY)2+μ^i2

总平方和(TSS) = 回归平方和(ESS) + 残差平方和(RSS)

平方和自由度均方F统计量
回归平方和ESSkESSk\frac {ESS}{k}kESSF=ESS/kRSS/(n−k−1)F=\frac{ESS/k}{RSS/(n-k-1)}F=RSS/(nk1)ESS/k~F(k,n-k-1)
残差平方和RSSn-k-1RSSn−k−1\frac {RSS}{n-k-1}nk1RSS
总平方和TSSn-1

原假设H0:β1=...=βk=0(注意:截距项β0不再此假设中,因为ESS的表达式中没有β0)H_0: β_1 = ...=β_k=0 (注意:截距项β_0不再此假设中,因为ESS的表达式中没有β_0)H0:β1=...=βk=0(β0ESSβ0)
备择假设H1:不全为0H_1: 不全为 0H1:0

由于F统计量可以写成拟合优度的表达式:F=(1−R2)/kR2/(n−k−1)F=\frac {(1-R^2)/k}{R^2/(n-k-1)}F=R2/(nk1)(1R2)/k
所以,F检验实际上也是对拟合优度R2R^2R2的显著性检验

注意:本章假设回归模型为Y=β0+β1X1+...βkXk+μY=β_0+β_1X_1+...β_kX_k+μY=β0+β1X1+...βkXk+μ,即产生Y,X1,...,XkY,X_1,...,X_kY,X1,...Xk,共 k+1 个变量,此时方程的自由度是k=(k+1)-1
同理上述方差分析表中,ESS的方程中也是k+1个变量,自由度为是k=(k+1)-1,RSS为n-(k+1)=n-k-1。
如果参数的设置是由β1β_1β1开始的,Y=β1+β2X1+...βkXk+μY=β_1+β_2X_1+...β_kX_k+μY=β1+β2X1+...βkXk+μ则ESS自由度变为k-1,RSS的自由度变为n-k。
4,变量的显著性检验-t检验

对每个变量进行显著性判断,通过构造t统计量进行推断
t=βi^−βiSβ^it = \frac {\hat{β_i}-β_i}{S_{\hat β_i}}t=Sβ^iβi^βi

原假设 H0:βi=0H_0:β_i = 0H0:βi=0
备择假设H1:βi≠0H_1:β_i ≠ 0H1:βi̸=0

五,多元线性回归模型

对于多元线性回归模型来说,假设、求解、显著性检验的推断过程和逻辑是一致的。

值得注意的是,对于多元回归模型,拟合优度需要修正:
随着解释变量的增加,拟合优度会至少不会变差,那么真的是越多的变量越好吗?
The Answer Is No

调整后的拟合优度:
R‾2=1−(1−R2)n−1n−k\overline{R}^2=1- (1-R^2)\frac{n-1}{n-k}R2=1(1R2)nkn1
k为包括截距项的估计参数的个数


参考:
1,计量经济学基础,古扎拉蒂

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值