6、特征工程:处理、扩展与高级技术

特征工程:处理、扩展与高级技术

1. 处理异常值

异常值处理是特征工程中依赖领域知识的重要任务。处理异常值时,关键在于区分错误观测和极端观测。不能轻易删除异常值,除非有明确证据表明它们是错误观测。例如在保险领域,去除大额索赔会使保险模型失效。

异常值可能由多种原因产生,如传感器数据在插拔电缆或开启采集系统时产生的高峰值,或者根据领域知识判断不可能出现的值(如999岁的患者)。

如果确定某些特征值为异常值,可以将其视为缺失值。在没有全自动的异常值识别、移除和插补方法时,应保留测试集中的异常值,否则无法正确评估机器学习模型在生产环境中的表现。

1.1 异常值检测

异常值检测也称为新奇性检测、异常检测等,旨在识别全量数据集中或新到达数据中的异常值。定义异常值是一项具有挑战性的任务,Bannet和Lewis将其定义为与数据集其余部分不一致的观测。

异常值检测不仅有助于移除异常值,还能揭示数据可能呈现的非正态“肥尾”分布,以及可能存在的截断或失真数据。在特征工程中,通常关注无监督异常值检测技术,主要包括聚类、密度估计和单类支持向量机。

无监督判别技术使用相似性函数和聚类,将异常值得分定义为到最近质心的距离。无监督参数技术仅对正常类进行建模,若新数据由模型生成的概率较低,则认为其异常。

以下是一些常见的无监督异常值检测技术:
- k - 均值聚类 :有助于区分稀疏性和孤立性,稀疏区域的点不是异常值,而孤立点是。
- 大规模聚类技术 :如BIRCH和DB - SCAN可显式处理异常值,但不提供异常

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值