引言
优快云的小伙伴们大家好!本篇文章将和大家共同学习数模比赛中经常用到的一种回归算法——多元线性回归。目前,关于数模中多元线性回归的教学大多都是从相关原理出发,再结合例题进行讲解。然而,很多算法的原理对于非专业学生来说往往显得晦涩难懂。鉴于很多小伙伴和我一样,并非相关专业的学生,只是希望在数模比赛中能够实际应用一些有用的算法,因此,本文将重点介绍多元线性回归在数模比赛中的适用题型和具体的应用步骤。对于其中涉及到的相关原理,感兴趣的小伙伴们可以自行查阅相关书籍或数学建模资料进行深入学习。
目录
回归分析介绍
多元线性回归是回归分析的一种方法。接下来将简单介绍回归分析,有助于大家对回归分析有一个总体把握,为学习相关算法打下基础。
回归分析作为数据分析领域中最为基础且核心的分析工具,其重要性不言而喻。面对绝大多数的数据分析问题,我们都可以巧妙地运用回归的思想来找到解决之道。回归分析的核心任务(使命),是通过深入研究自变量X与因变量Y之间的相关关系,尝试揭示Y的形成机制,并最终达到通过已知X来准确预测Y的目的。
回归的使命
接下来,我们来详细探讨回归分析的三大使命:
使命1:识别与判断
回归分析的首要任务,是识别并判断哪些X变量与Y变量之间存在真实的相关关系,而哪些则不是。在统计学中,有一个非常重要的研究领域,那就是“变量选择”。为了实现这一目标,我们可以运用逐步回归法、lasso回归等方法,来筛选出与Y变量真正相关的X变量。
使命2:确定相关关系的方向
在成功去除了那些与Y不相关的X变量之后,我们接下来要关注的是那些重要的、有用的X变量。回归分析需要回答的一个关键问题是:这些有用的X变量与Y之间的相关关系是正相关还是负相关?这一问题的答案,对于我们理解变量之间的相互作用机制具有重要意义。
使命3:赋予不同X变量不同的权重
在确定了哪些X变量是重要的之后,我们还需要进一步考虑这些变量之间的相对重要性。为此,回归分析会赋予不同的X变量不同的权重,也就是不同的回归系数。通过这样的方式,我们可以更清晰地了解到不同变量在影响Y变量时所起到的作用大小,从而更准确地把握变量之间的相对重要性。
回归的分类
回归分析是一个庞大的家族,其中包含了多种类型的回归方法,这些方法的划分主要依据是因变量Y的类型。具体来说,常见的回归分析有五类:线性回归、0-1回归(也称为逻辑回归)、定序回归、计数回归以及生存回归。
类型 | 模型 | Y的特点 | 例子 |
---|---|---|---|
线性回归 |
OLS、GLS(最小二乘) | 连续数值型变量 | GDP,收入,产量 |
0-1回 | logistic回归 |
二值变量(0-1) | 是否违约,是否结婚 |
定序回归 | probit定序回归 | 定序变量 | 等级评定 |
计数回归 | 泊松回归 | 计数变量 | 每分钟车流量 |
生存回归 | Cox等比例风险回归 | 生存变量(截断变量) | 企业、产品寿命 |
数据的分类
回归分析归根到底是对数据进行回归分析,而不同问题涉及到数据的类型也不尽相同,了解学习数据类型对于我们选择模型有着至关重要的作用。数据大致可分为三类,分别是横截面数据、时间序列数据和面板数据。
类型 | 定义 | 特点 |
---|---|---|
横截面数据 | 横截面数据是在同一时间点上收集的多个个体或对象的数据。 | 每个个体或对象只被观察一次,数据之间没有时间序列的关系。 |
时间序列数据 | 时间序列数据是在不同时间点上收集的同一个体或对象的数据。 | 数据按照时间顺序排列,每个时间点上的数据都与前一个时间点上的数据有关联。 |
面板数据 | 面板数据是在不同时间点上收集的多个个体或对象的数据。 | 结合了横截面数据和时间序列数据的特点,既包含多个个体或对象,又包含时间序列的信息。 |
建模比赛中,前两种数据类型最常考到;面板数据较为复杂,是经管类学生在中级计量经济学中才会学到的模型。
横截面数据往往可以使用回归来进行建模,我们通过回归可以得到自变量与因变量之间的相关关系以及自变量的重要程度;时间序列数据往往需要我们进行预测,时间序列模型的选择也很多,需要选择合适的模型对数据进行建模。
适用题型
下面回到本文的主线任务——多元线性回归,多元线性分析一般用于影响因素分析:通过多元线性回归,可以分析哪些自变量对因变量有显著影响,以及这种影响的强度和方向。例如:
1. 在市场营销中,分析广告支出、产品价格、促销活动等多个因素对销售额的影响。
2. 以评价量为因变量,分析其它变量和评价量之间的关系
3. 以评价量为因变量,研究影响评价量的重要因素
设计到的知识
为了更清晰地理解多元线性回归及其相关的关键概念,我们将对多元线性回归模型以及涉及的名词——特别是内生性和多重共线性——进行简略而系统的介绍。
基本原理
在多元线性回归中,因变量()被假定为自变量(
)的线性组合加上一个随机误差项(