简单的双变量线性回归模型（一）_两个因变量怎么做线性回归分析-优快云博客

本文链接：https://blog.youkuaiyun.com/SAMAsamaa/article/details/137072307

Simple Linear Model（SLM）

那么，从现在开始我们就要开始正式的回归模型学习啦！先来看看最简单的双变量线性回归模型吧！
关键词：线性模型；双变量模型

最小二乘法（OLS）

在我们常规的模型估计中，最小二乘法是最最最常见的估计方法，下面从原理开始看看OLS是怎么估计系数的吧！
假设现在有一组数据，包括4组观测值，具体分布如下：

X	Y
X1	P1
X2	P2
X3	P3
X4	P4

现在我们想要知道X和Y之间的线性关系，首先我们先假设这两个变量之间的关系为：
$Yi=β0+β1Xi+ui（1）Y_i=\beta_0+\beta_1X_i+u_i （1）$
$i$ 作为下标表示的是具体某一个观测值，在这个案例中我们有4个观测值，所以 $i = 1, 2, 3, 4$ 。 $u_i$ 被称为误差项。我们有4个观测值，则样本总量 $N = 4$ 。
接下来我们需要理解两个概念：样本和总体。
样本：是从总体中抽取一部分观测值，作为代表性的数据来估计总体，也就是说我们试图通过实用部分数据来估计总体的全貌。因此必然存在误差，而且随着样本数量的增加，误差会越来越小。
总体：就是所有观测值，比如我们要研究女性学历和女性工资之间的关系，那么地球上所有女性的信息在一起就叫做总体。很显然，我们无法获得总体数据，只能收集到尽可能多的女性信息，这就是样本。随着我们收集到的信息越多越全面，那么我们估计的结果就会越准确，这是因为我们遗漏的误差越少。
那么，公式（1）就是我们想要估计的总体模型，其中 $β0\beta_0$ , $β1\beta_1$ 就叫做参数（parameter）。参数是固定的数值的一个数，表示的是X和Y之间真正的数量关系。可是，由于我们无法获得总体数据，只能用部分样本数据来估计模型，因此我们无法得到真正的参数值，只能获得该参数的估计值。
$Yi^=b0+b1Xi（2）\hat{Y_i}=b_0+b_1X_i （2）$
其中 $b_0$ , $b_1$ 即是我们对参数 $β0\beta_0$ , $β1\beta_1$ 的估计值。随着样本数量的增加和模型的优化，我们估计的 $b_0$ , $b_1$ 会越来越接近参数 $β0\beta_0$ , $β1\beta_1$ 。公式（2）则是我们得到的样本模型。整个计量模型估计实际上就是在寻找 $b_0$ , $b_1$ ，而整个计量模型的检验和改进都是为了找到尽可能接近参数 $β0\beta_0$ , $β1\beta_1$ 的估计值 $b_0$ , $b_1$ 。即便我们使用相同的变量和相同的模型，当我们选择不同的样本数据时，我们的估计值也不相同。
接下来我们用图形来描述下：
在这里插入图片描述
图1 观测值和拟合线
如图1所示，这四组观测值分别在图上表现为4个点，那条直线则是公式（2）所描述的直线。 $Yi^\hat{Y_i}$ 叫做估计值，也就是我们使用给定的X数值并且利用我们找到的参数估计值 $b_0$ , $b_1$ 得到的Y的值。
在这里插入图片描述
图2 观测值和拟合线和残差项
可以看到，在X取值X1时，Y的预测值为R1，真实观测值为P1，两者之间的误差为e1。依次类推，可以得到四个观测值分别对应的误差值。这些误差值实际上衡量了公式（2）中估计值和真实值之间的差异也就是误差大小。
介绍完这些前提背景以后，我们来看看到底怎么使用OLS找到参数估计值 $b_0$ , $b_1$ 。最小二乘法实际上就是最小化每个观测值的误差平方和，公式表示如下：
$\sum_i^N{e_i^2}$