SPSSPRO数据处理的通用方法介绍
1 数据标签和数据编码
对定类变量进行数据编码,可以浓缩或整合原始数据,有助于提高数据的安全性和传输效率。
2 异常值处理
可检测与处理变量数据中包含的异常值,异常值检测逻辑是对变量的数据集(类似于列)按照设置的阈值进行判定,筛选出落在异常值检测范围内的数据,再根据处置方法将原数据替换。
2.1 MAD异常值识别
MAD(Mean Absolute Deviation)指的是平均绝对偏差,假定数据服从正态分布,让异常点(outliers)落在两侧的50%的面积里,让正常值落在中间的50%的区域里。
2.2 IQR异常值识别
四分位距(Interquartile Range, IQR)是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准,规定:超过(上四分位+1.5倍IQR距离,或者下四分位-1.5倍IQR距离)的点为异常值。
2.3 3sigma异常值识别
当数据服从正态分布时,±3∂的概率是99.7%,则距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。
3 无效样本处理
检查与剔除无效样本,个案实际就是单个样本,一个样本由有限个变量的数据集组成,个案处理是对众多样本的变量数据集进行校验检测,筛除无效样本(含重复),是对行的标记处理。
4 生成变量
根据研究需要可以在原始变量基础上根据公式生成新的变量用以深入分析,例如生成平均值、求和、Z标准化、中心化等。
5 数据标准化
通过一些处理使得数据去量纲化,使得来自不同量纲或不同数量级的数据能够进行比较和

最低0.47元/天 解锁文章
1078

被折叠的 条评论
为什么被折叠?



