Simple Linear Model(SLM)
那么,从现在开始我们就要开始正式的回归模型学习啦!先来看看最简单的双变量线性回归模型吧!
关键词:线性模型;双变量模型
最小二乘法(OLS)
在我们常规的模型估计中,最小二乘法是最最最常见的估计方法,下面从原理开始看看OLS是怎么估计系数的吧!
假设现在有一组数据,包括4组观测值,具体分布如下:
X | Y |
---|---|
X1 | P1 |
X2 | P2 |
X3 | P3 |
X4 | P4 |
现在我们想要知道X和Y之间的线性关系,首先我们先假设这两个变量之间的关系为:
Yi=β0+β1Xi+ui(1)Y_i=\beta_0+\beta_1X_i+u_i (1)Yi=β0+β1Xi+ui(1)
iii作为下标表示的是具体某一个观测值,在这个案例中我们有4个观测值,所以i=1,2,3,4i=1,2,3,4i=1,2,3,4。uiu_iui被称为误差项。我们有4个观测值,则样本总量N=4N=4N=4。
接下来我们需要理解两个概念:样本和总体。
样本:是从总体中抽取一部分观测值,作为代表性的数据来估计总体,也就是说我们试图通过实用部分数据来估计总体的全貌。因此必然存在误差,而且随着样本数量的增加,误差会越来越小。
总体:就是所有观测值,比如我们要研究女性学历和女性工资之间的关系,那么地球上所有女性的信息在一起就叫做总体。很显然,我们无法获得总体数据,只能收集到尽可能多的女性信息,这就是样本。随着我们收集到的信息越多越全面,那么我们估计的结果就会越准确,这是因为我们遗漏的误差越少。
那么,公式(1)就是我们想要估计的总体模型,其中β0\beta_0β0,β1\beta_1β1就叫做参数(parameter)。参数是固定的数值的一个数,表示的是X和Y之间真正的数量关系。可是,由于我们无法获得总体数据,只能用部分样本数据来估计模型,因此我们无法得到真正的参数值,只能获得该参数的估计值。
Yi^=b0+b1Xi(2)\hat{Y_i}=b_0+b_1X_i (2)Yi^=b0+b1Xi(2)
其中b0b_0b0,b1b_1b1即是我们对参数β0\beta_0β0,β1\beta_1β1的估计值。随着样本数量的增加和模型的优化,我们估计的b0b_0b0,b1b_1b1会越来越接近参数β0\beta_0β0,β1\beta_1β1。公式(2)则是我们得到的样本模型。整个计量模型估计实际上就是在寻找b0b_0b0,b1b_1b1,而整个计量模型的检验和改进都是为了找到尽可能接近参数β0\beta_0β0,β1\beta_1β1的估计值b0b_0b0,b1b_1b1。即便我们使用相同的变量和相同的模型,当我们选择不同的样本数据时,我们的估计值也不相同。
接下来我们用图形来描述下:
图1 观测值和拟合线
如图1所示,这四组观测值分别在图上表现为4个点,那条直线则是公式(2)所描述的直线。Yi^\hat{Y_i}Yi^叫做估计值,也就是我们使用给定的X数值并且利用我们找到的参数估计值b0b_0b0,b1b_1b1得到的Y的值。
图2 观测值和拟合线和残差项
可以看到,在X取值X1时,Y的预测值为R1,真实观测值为P1,两者之间的误差为e1。依次类推,可以得到四个观测值分别对应的误差值。这些误差值实际上衡量了公式(2)中估计值和真实值之间的差异也就是误差大小。
介绍完这些前提背景以后,我们来看看到底怎么使用OLS找到参数估计值b0b_0b0,b1b_1b1。最小二乘法实际上就是最小化每个观测值的误差平方和,公式表示如下:
min∑iNei2min \sum_i^N{e_i^2}min