盖帽处理异常值

最新推荐文章于 2024-09-25 21:17:02 发布

原创最新推荐文章于 2024-09-25 21:17:02 发布 · 6.4k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#盖帽 #异常值 #哑变量 #强影响点 #标准差

SAS 专栏收录该内容

38 篇文章

订阅专栏

本文探讨了数据分析中异常值的几种类型，包括单值异常、相关性异常和突发异常，并通过实例解释如何识别和处理这些异常值。提到了盖帽法作为处理异常值的一种常见策略，根据置信区间的标准差来决定删除范围。同时，区分了异常值与强影响点，并介绍了回归模型中判断强影响点的方法。最后，讨论了对异常值敏感的模型，如聚类分析和时间序列。

部署运行你感兴趣的模型镜像

异常值的几种情况

数据分析中，异常值是比较难于界定的，一般数据异常值会有几种情况：

单值异常

如下图所示，某市场产品客群的样本分布中，年龄为0-5岁与150-200岁即可判定为异常，一般单值异常需结合实际的业务进行判断。

相关性异常

一般收入随年龄的增长呈现类线性趋势，如果出现下图情况，即低龄高收入者（如思聪）、高龄低收入者（如流浪老人），虽也可能属于正常情况，但还是要将其排除在建模样本外。如下为实现该散点图的SAS代码：

突发异常

如果出现下图情况，首先需要思考为什么会出现异常值，针对这种激增的异常，我一般会添加一个哑变量，用哑变量去表示该点发生了异常情况。

一般，如果判断了该点确实为异常值，我会标记出该点并禁止其入模，这里还需要注意区分强影响点与异常值的区别，如何判断某点是异常值还是强影响点？如果模型中，排除某点后模型并无变动，则该点确实为异常值，如果排除某点后模型被完全改变了，则该点可能为强影响点。

回归中的强影响点

通常，回归模型可以用如下方法判断强影响点：

剔出残差
杠杆值
COOK距离
协方差比

异常值怎么处理

一般，我习惯用盖帽法去处理数据中的异常值，即：

如果一个置信区间左右两边各有三个标准差，即区间置信度为99%时，一般建议三倍标准差以外删除；而如果一个置信区间左右两边各有两个标准差，即区间置信度为95%，此时到底取两个还是三个标准差则取决于模型对于异常的敏感程度。

通常，回归模型对于异常的敏感程度还算可以，有异常值放在那里也问题不大，但对于对异常值非常敏感的模型，一般需要删除掉两倍标准差以外的异常值了，例如聚类分析。

我认为，比较害怕异常值的两个模型除聚类分析外，另外一个应该就属时间序列了。

我的公众号：Data Analyst

个人网站：https://www.datanalyst.net/

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

AI算力推荐

Stable-Diffusion-3.5

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

图片生成

Stable-Diffusion

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。