数学建模笔记回归分析

最新推荐文章于 2024-09-11 19:01:38 发布

原创

最新推荐文章于 2024-09-11 19:01:38 发布 · 1.4k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析

本文深入探讨回归分析与相关分析的区别，讲解基本理论包括相关系数计算、回归模型构建、参数估计等，并提供多元、非线性回归及偏最小二乘回归的具体操作指导。

回归

目的：研究变量之间的关系（回归分析与相关分析）
区别：相关分析只能看出变量之间的线性相关程度，回归分析可以进行分析与预测
基本理论概述
1.相关分析
测度方法：1）列相关表2）画相关图找关系3）计算相关系数（前两个是初步观察，最后一个是定量判断）

2.回归分析

1）基本步骤：设置指标变量，数据处理，构建模型，参数估计，参数的显著性检验，分析控制预测

2）一般形式：y=f(x1,x2,x3,…xn)+ε （注意随机误差项）

3）注意事项：
（1）设置指标变量：不引进与问题无关的变量（分析现实意义），变量之间可能有线性关系（信息重叠），可以用主成分分析得到的变量进行主成分回归，指标数量不易过多，会引起累计误差
（2）收集整理数据：缺失数据的处理（删除？插值）；剔除异常值；标准化（无量纲化）；
先画散点图寻找可能的非线性关系，对y进行相关操作（如对数化，指数化），将xy之间的非线性映射转化为可计算的线性映射（广义线性回归）
（3）建立理论模型：基于（2）尝试的非线性关系
（4）参数估计：最小二乘（OLSE），极大似然估计（MLE)，岭回归（避免有些线性相关程度高而无唯一系数解的问题），主成分回归（保证参与回归的指标变量是线性无关的，再回代得到原指标变量的回归方程），偏最小二乘回归（集大成者：主成分分析+多元线性回归+相关性分析）。
关于偏最小二乘回归的基础部分，百度上的这个ppt讲的还是挺清楚的：
https://wenku.baidu.com/view/70a7c078f71fb7360b4c2e3f5727a5e9856a27bf.html?rec_flag=default&sxts=1586015050277
（5）模型的检验与修改：检验相关统计量的值，若不理想的话则进行修改：可以画图去掉离群点，若变量相关性强的话要重新选择指标变量或参数估计方式。
（6）回归模型的应用：定性与定量分析，预测。
具体操作

1)OLSE：[B,BINT,R,RINT,STATS] = regress(Y,X,ALPHA)
参数说明
B：回归系数，是个向量（“the vector B of regression coefficients in the linear model Y = X*B”）。
 BINT：回归系数的区间估计（“a matrix BINT of 95% confidence intervals for B”）。
 R：残差（ “a vector R of residuals”）。
 RINT：置信区间（“a matrix RINT of intervals that can be used to diagnose outliers”）。
 STATS：用于检验回归模型的统计量。有4个数值：判定系数R^2，F统计量观测值，检验的p的值，误差方差的估计。
相关系数 r2越接近 1，说明回归方程越显著；F > F1-α（k，n-k-1）时拒绝 H0，F 越大，说明回归方程越显著；与 F 对应的概率 p<α 时拒绝 H0，回归模型成立.
 ALPHA：显著性水平（缺少时为默认值0.05）。

2）画出残差及其置信区间： rcoplot（r，rint）得到异常点，可去除异常点优化模型

3）逐步回归
X=[7