回归
-
目的:研究变量之间的关系(回归分析与相关分析)
-
区别:相关分析只能看出变量之间的线性相关程度,回归分析可以进行分析与预测
-
基本理论概述
1.相关分析
测度方法:1)列相关表2)画相关图找关系3)计算相关系数(前两个是初步观察,最后一个是定量判断)2.回归分析
1)基本步骤:设置指标变量,数据处理,构建模型,参数估计,参数的显著性检验,分析控制预测
2)一般形式:y=f(x1,x2,x3,…xn)+ε (注意随机误差项)
3)注意事项:
(1)设置指标变量:不引进与问题无关的变量(分析现实意义),变量之间可能有线性关系(信息重叠),可以用主成分分析得到的变量进行主成分回归,指标数量不易过多,会引起累计误差
(2)收集整理数据:缺失数据的处理(删除?插值);剔除异常值;标准化(无量纲化);
先画散点图寻找可能的非线性关系,对y进行相关操作(如对数化,指数化),将xy之间的非线性映射转化为可计算的线性映射(广义线性回归)
(3)建立理论模型:基于(2)尝试的非线性关系
(4)参数估计:最小二乘(OLSE),极大似然估计(MLE),岭回归(避免有些线性相关程度高而无唯一系数解的问题),主成分回归(保证参与回归的指标变量是线性无关的,再回代得到原指标变量的回归方程),偏最小二乘回归(集大成者:主成分分析+多元线性回归+相关性分析)。
关于偏最小二乘回归的基础部分,百度上的这个ppt讲的还是挺清楚的:
https://wenku.baidu.com/view/70a7c078f71fb7360b4c2e3f5727a5e9856a27bf.html?rec_flag=default&sxts=1586015050277
(5)模型的检验与修改:检验相关统计量的值,若不理想的话则进行修改:可以画图去掉离群点,若变量相关性强的话要重新选择指标变量或参数估计方式。
(6)回归模型的应用:定性与定量分析,预测。 -
具体操作
1)OLSE:[B,BINT,R,RINT,STATS] = regress(Y,X,ALPHA)
参数说明
B:回归系数,是个向量(“the vector B of regression coefficients in the linear model Y = X*B”)。
BINT:回归系数的区间估计(“a matrix BINT of 95% confidence intervals for B”)。
R:残差( “a vector R of residuals”)。
RINT:置信区间(“a matrix RINT of intervals that can be used to diagnose outliers”)。
STATS:用于检验回归模型的统计量。有4个数值:判定系数R^2,F统计量观测值,检验的p的值,误差方差的估计。
相关系数 r2越接近 1,说明回归方程越显著;F > F1-α(k,n-k-1)时拒绝 H0,F 越大,说明回归方程越显著;与 F 对应的概率 p<α 时拒绝 H0,回归模型成立.
ALPHA:显著性水平(缺少时为默认值0.05)。
2)画出残差及其置信区间: rcoplot(r,rint)得到异常点,可去除异常点优化模型
3)逐步回归
X=[7

本文深入探讨回归分析与相关分析的区别,讲解基本理论包括相关系数计算、回归模型构建、参数估计等,并提供多元、非线性回归及偏最小二乘回归的具体操作指导。
最低0.47元/天 解锁文章
3212

被折叠的 条评论
为什么被折叠?



