简单的双变量线性回归模型(一)

Simple Linear Model(SLM)

那么,从现在开始我们就要开始正式的回归模型学习啦!先来看看最简单的双变量线性回归模型吧!
关键词:线性模型;双变量模型

最小二乘法(OLS)

在我们常规的模型估计中,最小二乘法是最最最常见的估计方法,下面从原理开始看看OLS是怎么估计系数的吧!
假设现在有一组数据,包括4组观测值,具体分布如下:

X Y
X1 P1
X2 P2
X3 P3
X4 P4

现在我们想要知道X和Y之间的线性关系,首先我们先假设这两个变量之间的关系为:
Yi=β0+β1Xi+ui(1)Y_i=\beta_0+\beta_1X_i+u_i (1)Yi=β0+β1Xi+ui1
iii作为下标表示的是具体某一个观测值,在这个案例中我们有4个观测值,所以i=1,2,3,4i=1,2,3,4i=1,2,3,4uiu_iui被称为误差项。我们有4个观测值,则样本总量N=4N=4N=4
接下来我们需要理解两个概念:样本和总体。
样本:是从总体中抽取一部分观测值,作为代表性的数据来估计总体,也就是说我们试图通过实用部分数据来估计总体的全貌。因此必然存在误差,而且随着样本数量的增加,误差会越来越小。
总体:就是所有观测值,比如我们要研究女性学历和女性工资之间的关系,那么地球上所有女性的信息在一起就叫做总体。很显然,我们无法获得总体数据,只能收集到尽可能多的女性信息,这就是样本。随着我们收集到的信息越多越全面,那么我们估计的结果就会越准确,这是因为我们遗漏的误差越少。
那么,公式(1)就是我们想要估计的总体模型,其中β0\beta_0β0,β1\beta_1β1就叫做参数(parameter)。参数是固定的数值的一个数,表示的是X和Y之间真正的数量关系。可是,由于我们无法获得总体数据,只能用部分样本数据来估计模型,因此我们无法得到真正的参数值,只能获得该参数的估计值。
Yi^=b0+b1Xi(2)\hat{Y_i}=b_0+b_1X_i (2)Yi^=b0+b1Xi2
其中b0b_0b0,b1b_1b1即是我们对参数β0\beta_0β0,β1\beta_1β1的估计值。随着样本数量的增加和模型的优化,我们估计的b0b_0b0,b1b_1b1会越来越接近参数β0\beta_0β0,β1\beta_1β1。公式(2)则是我们得到的样本模型。整个计量模型估计实际上就是在寻找b0b_0b0,b1b_1b1,而整个计量模型的检验和改进都是为了找到尽可能接近参数β0\beta_0β0,β1\beta_1β1的估计值b0b_0b0,b1b_1b1。即便我们使用相同的变量和相同的模型,当我们选择不同的样本数据时,我们的估计值也不相同。
接下来我们用图形来描述下:
在这里插入图片描述
图1 观测值和拟合线
如图1所示,这四组观测值分别在图上表现为4个点,那条直线则是公式(2)所描述的直线。Yi^\hat{Y_i}Yi^叫做估计值,也就是我们使用给定的X数值并且利用我们找到的参数估计值b0b_0b0,b1b_1b1得到的Y的值。
在这里插入图片描述
图2 观测值和拟合线和残差项
可以看到,在X取值X1时,Y的预测值为R1,真实观测值为P1,两者之间的误差为e1。依次类推,可以得到四个观测值分别对应的误差值。这些误差值实际上衡量了公式(2)中估计值和真实值之间的差异也就是误差大小。
介绍完这些前提背景以后,我们来看看到底怎么使用OLS找到参数估计值b0b_0b0,b1b_1b1。最小二乘法实际上就是最小化每个观测值的误差平方和,公式表示如下:
min∑iNei2min \sum_i^N{e_i^2}min

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值