逐步回归
关于变量选择
在有多个自变量的情况下,基于自变量的不同组合可以得到许多回归方程,这些回归方程的效果有好有坏
要得到最优的回归方程
- 回归效果最佳
- 自变量个数尽量少
变量选择常用方法 - 所有子集回归
- 逐步引入
- 逐步剔除
- 逐步回归
逐步回归的基本思想
基本原则
- 按照自变量对因变量影响的显著程度,从大到小逐个引入回归方程
- 每一个变量引入以后,判断先前引入的变量是否由于新变量的引入而变得不显著,若是,则将其剔除
- 引入一个自变量或剔除一个自变量,为逐步回归的一步
- 每一步都要进行检验,即,要进行引入变量是否显著以及剔除变量是否不显著的检验分析,一般地:显著性水平α进=0.05,α出=0.1显著性水平\alpha_{进}=0.05,\alpha_{出}=0.1显著性水平α进=0.05,α出=0.1
- 这个过程反复进行,直至既无变量需要引入,也无变量需要剔除,得到一个最佳的变量组合为止
逐步回归的MATLAB实现
stepwise(x, y, inmodel, alpha)
x,自变量数据,nxm阶矩阵
y,因变量数据,nx1阶矩阵
inmodel,初始模型中包含的自变量子集(缺省时默认为空集)
alpha(缺省时默认为0.05)
逐步回归实例
![![[Pasted image 20240815060454.png]]](https://i-blog.csdnimg.cn/direct/0a13e9b497714e8ebaeb5ab24123be02.png)
Matlab程序实现
- 数据输入
x1=[7 1 11 11 7 11 3 1 2 21 1 11 10]';
x2=[26 29 56 31 52 55 71 31 54 47 40 66 68]';
x3=[6 15 8 8 6 9 17 22 18 4 23 9 8]';
x4=[60 52 20 47 33 22 6 44 22 26 34 12 12]';
y=[78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4]';
x=[x1 x2 x3 x4];
- 逐步回归
stepwise(x, y)
![![[Pasted image 20240815061418.png]]](https://i-blog.csdnimg.cn/direct/f3d47e35a49842afb750ca981c7f919a.png)
第一个窗口,表示自变量x1,x2,x3,x4x_{1},x_{2},x_{3},x_{4}x1,x2,x3,x4的显著性程度的窗口
-
置信线都是红色的,表示这个变量当前不在模型里面,否则是蓝色,说明当前的模型中没有任何一个自变量,都是常数项
-
p-val表示自变量的显著性,p值越小越显著,即x4x_{4}x4对因变量的影响最显著
-
看p值是不是小于α进=0.05\alpha_{进}=0.05α进=0.05,小于可以引入
中间的窗口,表示一些模型的参数和统计量的取值 -
截距,表示常数项
最后一个窗口,表示逐步回归模型,在历次调试中的RMSE的值,即均方根误差 -
可以直接点击置信线引入
-
或者点击下一步引入
![![[Pasted image 20240815062215.png]]](https://i-blog.csdnimg.cn/direct/f2c170a8f4b24a6ebca44a728e6e78b1.png)
再次根据p值判断,引入x1x_{1}x1
![![[Pasted image 20240815062504.png]]](https://i-blog.csdnimg.cn/direct/3333f3e96c8a4b70a9ac2d149852249d.png)
没有需要剔除的变量
没有需要引入的变量
3. 对变量y与x1,x4x_{1},x_{4}x1,x4作线性回归
X=[ones(13,1) x1 x4];
[b, bint, r, rint, stats]=regress(y, X)
得
b = 103.0974
1.4400
-0.6140
最终模型为
y=103.0974+1.4400x1−0.614x4 y=103.0974+1.4400x_{1}-0.614x_{4} y=103.0974+1.4400x1−0.614x4
可线性化的非线性回归
示例
1.
y=β0+β1ebz+ε y=\beta_{0}+\beta_{1}e^{bz}+\varepsilon y=β0+β1ebz+ε
令x′=ebxx'=e^{bx}x′=ebx
y=β0+β1x′+ε y=\beta_{0}+\beta_{1}x'+\varepsilon y=β0+β1x′+ε
2.
y=β0+β1x+β2x2+⋯+βmxm+ε y=\beta_{0}+\beta_{1}x+\beta_{2}x^{2}+\dots+\beta_{m}x^{m}+\varepsilon

最低0.47元/天 解锁文章
8718

被折叠的 条评论
为什么被折叠?



