数模学习——多元线性回归

2301_79906879

已于 2024-07-28 13:35:50 修改

阅读量1.6k

点赞数 9

文章标签：学习线性回归算法数学建模

于 2024-07-28 13:33:18 首次发布

本文链接：https://blog.youkuaiyun.com/2301_79906879/article/details/140745807

版权

引言

优快云的小伙伴们大家好！本篇文章将和大家共同学习数模比赛中经常用到的一种回归算法——多元线性回归。目前，关于数模中多元线性回归的教学大多都是从相关原理出发，再结合例题进行讲解。然而，很多算法的原理对于非专业学生来说往往显得晦涩难懂。鉴于很多小伙伴和我一样，并非相关专业的学生，只是希望在数模比赛中能够实际应用一些有用的算法，因此，本文将重点介绍多元线性回归在数模比赛中的适用题型和具体的应用步骤。对于其中涉及到的相关原理，感兴趣的小伙伴们可以自行查阅相关书籍或数学建模资料进行深入学习。

回归分析介绍

多元线性回归是回归分析的一种方法。接下来将简单介绍回归分析，有助于大家对回归分析有一个总体把握，为学习相关算法打下基础。

回归分析作为数据分析领域中最为基础且核心的分析工具，其重要性不言而喻。面对绝大多数的数据分析问题，我们都可以巧妙地运用回归的思想来找到解决之道。回归分析的核心任务（使命），是通过深入研究自变量X与因变量Y之间的相关关系，尝试揭示Y的形成机制，并最终达到通过已知X来准确预测Y的目的。

回归的使命

接下来，我们来详细探讨回归分析的三大使命：

使命1：识别与判断

回归分析的首要任务，是识别并判断哪些X变量与Y变量之间存在真实的相关关系，而哪些则不是。在统计学中，有一个非常重要的研究领域，那就是“变量选择”。为了实现这一目标，我们可以运用逐步回归法、lasso回归等方法，来筛选出与Y变量真正相关的X变量。

使命2：确定相关关系的方向

在成功去除了那些与Y不相关的X变量之后，我们接下来要关注的是那些重要的、有用的X变量。回归分析需要回答的一个关键问题是：这些有用的X变量与Y之间的相关关系是正相关还是负相关？这一问题的答案，对于我们理解变量之间的相互作用机制具有重要意义。

使命3：赋予不同X变量不同的权重

在确定了哪些X变量是重要的之后，我们还需要进一步考虑这些变量之间的相对重要性。为此，回归分析会赋予不同的X变量不同的权重，也就是不同的回归系数。通过这样的方式，我们可以更清晰地了解到不同变量在影响Y变量时所起到的作用大小，从而更准确地把握变量之间的相对重要性。

回归的分类

回归分析是一个庞大的家族，其中包含了多种类型的回归方法，这些方法的划分主要依据是因变量Y的类型。具体来说，常见的回归分析有五类：线性回归、0-1回归（也称为逻辑回归）、定序回归、计数回归以及生存回归。

回归分类
类型	模型	Y的特点	例子
线性回归	OLS、GLS（最小二乘）	连续数值型变量	GDP，收入，产量
0-1回	logistic回归	二值变量（0-1）	是否违约，是否结婚
定序回归	probit定序回归	定序变量	等级评定
计数回归	泊松回归	计数变量	每分钟车流量
生存回归	Cox等比例风险回归	生存变量（截断变量）	企业、产品寿命

数据的分类

回归分析归根到底是对数据进行回归分析，而不同问题涉及到数据的类型也不尽相同，了解学习数据类型对于我们选择模型有着至关重要的作用。数据大致可分为三类，分别是横截面数据、时间序列数据和面板数据。

数据分类
类型	定义	特点
横截面数据	横截面数据是在同一时间点上收集的多个个体或对象的数据。	每个个体或对象只被观察一次，数据之间没有时间序列的关系。
时间序列数据	时间序列数据是在不同时间点上收集的同一个体或对象的数据。	数据按照时间顺序排列，每个时间点上的数据都与前一个时间点上的数据有关联。
面板数据	面板数据是在不同时间点上收集的多个个体或对象的数据。	结合了横截面数据和时间序列数据的特点，既包含多个个体或对象，又包含时间序列的信息。