目录
学习目的
SPSS第二十一讲:多元线性回归分析(超级详细)
软件版本
IBM SPSS Statistics 26。
原始文档
多元线性回归分析
今天我们来学习多元线性回归分析,它用来评价一个因变量和多个自变量之间关系的统计方法。除了需要满足一元线性回归的条件之外,多元线性回归还需要满足【多个自变量不存在多重共线】的条件.
多元线性回归需要满足如下条件:
(1)自变量和因变量在理论上有因果关系;
(2)因变量为连续型变量;
(3)各自变量与因变量之间存有线性关系;
(4)残差要满足正态性、独立性、方差齐性。
(5)多个自变量不存在多重共线性
其中,线性(Linear)、正态性(Normal)、独立性(independence)、方差齐性(Equal Variance),俗称LINE,是线性回归分析的四大基本前提条件。
这里稍微解释它们概念:
Q1 线性:解释自变量X和因变量Y必须要有线性关系吗?
—不是!只有当X是连续型数据或者等级数据(不设哑变量)时,才要求X与Y有线性的关系。当X是二分类或无序多分类,没有线性条件的要求。
Q2独立性:要求因变量Y各观察值相互独立吗?
—不是,是要求残差是独立的。
Q3正态性:要求因变量Y各观察值正态分布吗?
—不是,是要求残差正态分布。
Q4方差齐性:要求不同的解释变量X时,因变量Y方差相等吗?
—没错,但是对于多元线性回归分析,更加合理的理解是在不同Y预测值情况下,残差的方差变化不大。
Q5:一定要严格满足LINK吗?
—如果回归分析只是建立自变量与因变量之间关系,无须根据自变量预测因变量的容许区间和可信度等,则方差齐性和正态性可以适当放宽。
何为残差?
残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。我们以一元线性回归为例,它只有一个自变量,其模型可以表示为:

上述公式是基于样本得到的结果,b0和b1均为统计量。
若该公式拓展到总体人群,则为:

值得注意的是,这里x是真实的变量值x,而y带了一顶帽子,并非是y的真实值,而是成为y的预测值或者估计值。实际上,x和y没有严格上一一对应的关系,通过x产生的预测值,是接近于y但不等于y。
y预测值与y真实值之间的差值我们称之为残差。
残差反映了除了x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性。
可以这么来理解ϵ:我们对y的预测是不可能达到与真实值完全一样的,因此必然会产生误差,我们就用ϵ来表示这个无法预测的误差。我们通过引入了ϵ可以让模型达到完美状态,也就是理论的回归模型。
结合残差,真实的y和x关系如下:
同样的,多个自变量存在的情况下,多重线性回归模型的表示如下:
其中,bk、βk:回归系数,在多重线性回归中,被称之为偏回归系数,表示每个自变量都对y部分的产生了影响。
意义与简单线性回归结果相似,反映的是x对y的影响力,是当x每改变一个观测单位时所引起y的改变量。
这里e

本文详细介绍了用SPSS进行多元线性回归分析的方法。阐述了多元线性回归需满足的条件,包括自变量与因变量的因果、线性关系,残差的正态性、独立性、方差齐性等。通过实战案例展示了SPSS操作步骤,并对结果进行解读,还介绍了多重共线性的检验与对策。
最低0.47元/天 解锁文章
1341





