6、特征工程：处理、扩展与高级技术

肥宅快乐水901

于 2025-09-10 15:24:31 发布

阅读量19

点赞数

CC 4.0 BY-SA版权

分类专栏：特征工程的艺术解读文章标签：特征工程异常值处理 Delta特征

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/websocket5live/article/details/152114643

特征工程的艺术解读专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

特征工程：处理、扩展与高级技术

1. 处理异常值

异常值处理是特征工程中依赖领域知识的重要任务。处理异常值时，关键在于区分错误观测和极端观测。不能轻易删除异常值，除非有明确证据表明它们是错误观测。例如在保险领域，去除大额索赔会使保险模型失效。

异常值可能由多种原因产生，如传感器数据在插拔电缆或开启采集系统时产生的高峰值，或者根据领域知识判断不可能出现的值（如999岁的患者）。

如果确定某些特征值为异常值，可以将其视为缺失值。在没有全自动的异常值识别、移除和插补方法时，应保留测试集中的异常值，否则无法正确评估机器学习模型在生产环境中的表现。

1.1 异常值检测

异常值检测也称为新奇性检测、异常检测等，旨在识别全量数据集中或新到达数据中的异常值。定义异常值是一项具有挑战性的任务，Bannet和Lewis将其定义为与数据集其余部分不一致的观测。

异常值检测不仅有助于移除异常值，还能揭示数据可能呈现的非正态“肥尾”分布，以及可能存在的截断或失真数据。在特征工程中，通常关注无监督异常值检测技术，主要包括聚类、密度估计和单类支持向量机。

无监督判别技术使用相似性函数和聚类，将异常值得分定义为到最近质心的距离。无监督参数技术仅对正常类进行建模，若新数据由模型生成的概率较低，则认为其异常。

以下是一些常见的无监督异常值检测技术：
- k - 均值聚类 ：有助于区分稀疏性和孤立性，稀疏区域的点不是异常值，而孤立点是。
- 大规模聚类技术 ：如BIRCH和DB - SCAN可显式处理异常值，但不提供异常

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。