第二十一讲内容:多元线性回归分析怎么做?
今天我们来学习多元线性回归分析,它用来评价一个因变量和多个自变量之间关系的统计方法。除了需要满足一元线性回归的条件之外,多元线性回归还需要满足【多个自变量不存在多重共线】的条件,多元线性回归需要满足如下条件。
(1)自变量和因变量在理论上有因果关系;
(2)因变量为连续型变量;
(3)各自变量与因变量之间存有线性关系;
(4)残差要满足正态性、独立性、方差齐性。
(5)多个自变量不存在多重共线性
其中,线性(Linear)、正态性(Normal)、独立性(independence)、方差齐性(Equal Variance),俗称LINE,是线性回归分析的四大基本前提条件。
这里稍微解释它们概念:
Q1 线性:解释自变量X和因变量Y必须要有线性关系吗?
---不是!只有当X是连续型数据或者等级数据(不设哑变量)时,才要求X与Y有线性的关系。当X是二分类或无需多分类,没有线性条件的要求。
Q2独立性:要求因变量Y各观察值相互独立吗?
---不是,是要求残差是独立的。
Q3正态性:要求因变量Y各观察值正态分布吗?
---不是,是要求残差正态分布。
Q4方差齐性:要求不同的解释变量X时,因变量Y方差相等吗?
---没错,但是对于多元线性回归分析,更加合理的理解是在不同Y预测值情况下,残差的方差变化不大。
Q5:一定要严格满足LINK吗?
---如果回归分析只是建立自变量与因变量之间关系,无须根据自变量预测因变量的容许区间和可信度等,则方差齐性和正态性可以适当放宽。
何为残差?
残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。我们以一元线性回归为例,它只有一个自变量,其模型可以表示为:
上述公式是基于样本得到的结果,b0和b1均为统计量。
若该公式拓展到总体人群,则为:
值得注意的是,这里x是真实的变量值x,而y带了一顶帽子,并非是y的真实值,而是成为y的预测值或者估计值。实际上,x和y没有严格上一一对应的关系,通过x产生的预测值,是接近于y但不等于y。
y预测值与y真实值之间的差值我们称之为残差。