数据预处理:识别异常值与最优分箱
1. 数据预处理模块概述
IBM SPSS Statistics由基础系统构成,具备多种数据准备、绘图和数据分析选项,用户还能添加额外功能的模块。其中,数据准备模块包含四种技术,可在数据分析前提升数据质量:
- 验证(Validation) :通过定义基于单个变量或跨变量的规则,检查数据中的各类错误和问题,如标签、值、缺失值代码错误,范围外的值、异常分布、离群值、跳过指令执行错误、逻辑不一致和默认偏差等。输出报告有助于分析师评估数据质量,也可供数据提供者修正数据,规则违反情况可记录为变量用于进一步分析。
- 识别异常值(Identify Unusual Cases) :可自动识别多个变量组合中的异常情况,基于两步聚类算法,为案例分配异常分数,分数越大表示越异常,还能指出哪些变量最异常。
- 最优分箱(Optimal Binning) :将连续变量转换为分类变量,基于单独的分类字段指导分箱过程,使分箱字段与监督字段之间的组间分离最大化。
- 建模数据准备(Data Preparation for Modeling) :分析数据,筛选出有问题或可能无用的字段,在适当情况下派生新属性,通过各种筛选技术提高性能。可对缺失数据进行替换,自动调整变量的测量水平,还能从日期和时间字段中提取信息,支持全自动或交互式使用。
由于完整介绍每种技术篇幅过长,下面重点介绍识别异常值和最优分箱这两种技术。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



