R语言与回归分析学习笔记（应用回归小结）（2）

最新推荐文章于 2024-08-04 12:35:46 发布

原创

最新推荐文章于 2024-08-04 12:35:46 发布 · 3w 阅读

·

9

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文通过R语言介绍了异常点与强影响点的概念，利用模拟数据展示了如何使用outlierTest和influencePlot进行判断。讨论了异常点的处理方法，并强调对异常点的重视。此外，文章提到了回归模型的改进，如岭回归、主成分回归应对复共线性，以及box-cox变换解决异方差性。最后，探讨了变量选择，推荐使用全子集回归和subsets函数，并提醒读者谨慎对待变量变换。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

三、异常点

所谓的异常点一般指有着很大残差（绝对值）的点，如果对模型的参数估计值影响出现了比例失衡，那么我们称之为强影响点。为了说明异常点与强影响点的判别，我们特意采用模拟的数据来证实它。

为了简单起见，我们采用一元模型来说明问题。

模拟数据：（模型：y=0.5+1.7*x+e）

x<-rexp(100,0.2)
e<-rnorm(100)
y<-0.5+1.7*x+e

我们来看看这个回归结果

lm(y~x)

输出结果：

Call:

lm(formula= y ~ x)

Coefficients:

(Intercept) x

0.5489 1.7955

我们来改变其中的一个点：

y[50]<-0.7+0.2*x[50]+e[50]

那么他是异常点吗？这个改变毕竟不大，能被观测出来吗？我们可以先看看回归系数发生了什么样的改变？

lm.reg1<-lm(y~x)
lm.reg1

Call:

lm(formula= y ~ x)

Coefficients:

(Intercept) x

0.3827 1.7404

我们通过qq图进行初步判断：

显然初步判断它没有成为一个异常点。我们也可以通过car包里的outlierTest（）来判断。

outlierTest(lm.reg1)

输出结果：

NoStudentized residuals with Bonferonni p < 0.05

Largest|rstudent|:

rstudent unadjusted p-value Bonferonni p

36 2.285984 0.024431 NA

也就是说没有异常点，其中残差最大的点是36号点。这也告诉我们不是所有的不合

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。