特征工程:处理、扩展与高级技术
1. 处理异常值
异常值处理是特征工程中依赖领域知识的重要任务。处理异常值时,关键在于区分错误观测和极端观测。不能轻易删除异常值,除非有明确证据表明它们是错误观测。例如在保险领域,去除大额索赔会使保险模型失效。
异常值可能由多种原因产生,如传感器数据在插拔电缆或开启采集系统时产生的高峰值,或者根据领域知识判断不可能出现的值(如999岁的患者)。
如果确定某些特征值为异常值,可以将其视为缺失值。在没有全自动的异常值识别、移除和插补方法时,应保留测试集中的异常值,否则无法正确评估机器学习模型在生产环境中的表现。
1.1 异常值检测
异常值检测也称为新奇性检测、异常检测等,旨在识别全量数据集中或新到达数据中的异常值。定义异常值是一项具有挑战性的任务,Bannet和Lewis将其定义为与数据集其余部分不一致的观测。
异常值检测不仅有助于移除异常值,还能揭示数据可能呈现的非正态“肥尾”分布,以及可能存在的截断或失真数据。在特征工程中,通常关注无监督异常值检测技术,主要包括聚类、密度估计和单类支持向量机。
无监督判别技术使用相似性函数和聚类,将异常值得分定义为到最近质心的距离。无监督参数技术仅对正常类进行建模,若新数据由模型生成的概率较低,则认为其异常。
以下是一些常见的无监督异常值检测技术:
- k - 均值聚类 :有助于区分稀疏性和孤立性,稀疏区域的点不是异常值,而孤立点是。
- 大规模聚类技术 :如BIRCH和DB - SCAN可显式处理异常值,但不提供异常
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



