13、数据预处理:识别异常值与最优分箱

数据预处理:识别异常值与最优分箱

1. 数据预处理模块概述

IBM SPSS Statistics由基础系统构成,具备多种数据准备、绘图和数据分析选项,用户还能添加额外功能的模块。其中,数据准备模块包含四种技术,可在数据分析前提升数据质量:
- 验证(Validation) :通过定义基于单个变量或跨变量的规则,检查数据中的各类错误和问题,如标签、值、缺失值代码错误,范围外的值、异常分布、离群值、跳过指令执行错误、逻辑不一致和默认偏差等。输出报告有助于分析师评估数据质量,也可供数据提供者修正数据,规则违反情况可记录为变量用于进一步分析。
- 识别异常值(Identify Unusual Cases) :可自动识别多个变量组合中的异常情况,基于两步聚类算法,为案例分配异常分数,分数越大表示越异常,还能指出哪些变量最异常。
- 最优分箱(Optimal Binning) :将连续变量转换为分类变量,基于单独的分类字段指导分箱过程,使分箱字段与监督字段之间的组间分离最大化。
- 建模数据准备(Data Preparation for Modeling) :分析数据,筛选出有问题或可能无用的字段,在适当情况下派生新属性,通过各种筛选技术提高性能。可对缺失数据进行替换,自动调整变量的测量水平,还能从日期和时间字段中提取信息,支持全自动或交互式使用。

由于完整介绍每种技术篇幅过长,下面重点介绍识别异常值和最优分箱这两种技术。

2. 识别异常值

2.1 异常值的类型与影响

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值