多元线性回归
定义:多元线性回归是一种统计方法,用来分析一个因变量与多个自变量之间的线性关系。模型形式为: ,其中,Y是因变量,
是自变量,
是截距项和对应自变量的回归系数,ε是误差项。
多元线性回归一般用于预测某个量的未来值,或是解释分析各个变量对结果的影响程度
定性预测变量
多元线性回归本质上要求自变量为数值型,因此定性变量要转成数值形式,常用的做法是:
-
虚拟变量:将某个类别变量用0/1编码。例如性别:男=0,女=1;如果分类>2阶段,则需使用k-1个虚拟变量表示k中类别
-
效果编码:用 -1/0/1 表示类别,便于系数解释为相对基准的偏差
-
one-hot Encoding:为每个类别生成一个新变量,类别取值为 0/1(类似虚拟变量)
-
编码时必须避免虚拟变量陷阱,即避免完全多重共线性,通常会删除一个虚拟变量作为参照组
线性模型的扩展
基础的多元线性回归并不总是适合问题,可以扩展为更灵活的模型来应对不同数据结构和问题
- 广义线性模型 (GLM):
-
允许因变量服从非正态分布(如二项分布、Poisson分布)
-
常用模型:逻辑回归、泊松回归
-
- 加性模型(GAM):
-
允许自变量与因变量之间的关系是非线性的,但可以加性组合
-
形式:
-
- 多项式回归 (Polynomial Regression):
-
假如高阶项:
等,以捕捉非线性
-
- 交互作用模型 (Interaction Terms):
-
捕捉变量之间的相互影响,如
项
-
- 分层线性模型 ( HLM):
-
针对嵌套数据结构(如学校内的学生数据)
-
- 岭回归 (Ridge Regression)、套索回归 (Lasso Regression):
-
在多元线性回归中加入正则化项,防止过拟合
-
回归模型的主要假设
-
线性关系 因变量与自变量之间是线性可加的。
-
独立性 误差项相互独立,没有自相关。
-
同方差性(Homoscedasticity) 误差项的方差恒定,不随自变量变化。
-
正态性 误差项服从正态分布(更多是针对推断时的检验有效性)。
-
无多重共线性 各自变量之间不高度相关,否则会影响系数稳定性。
变量转化的基础
当模型假设不完全满足,可以通过数据转换改善:
-
对数变换:处理指数增长型数据,减少偏度、稳定方差。
-
平方根变换:常用于计数型数据。
-
幂变换:通过参数化变换寻找最佳稳定方差形式。
-
标准化/归一化:消除量纲影响,方便系数比较。
-
差分处理:处理时间序列中的非平稳性。
612

被折叠的 条评论
为什么被折叠?



