首先summary数据特性,对于非数值型数据,统计取值的种类数,以及每种出现的频次。对于数值型的特征,统计其数学特性,最小值,第一四分位数,第三四分位数,均值,中位数,最大值,缺失值的数量。
用可视化的方法进行数据检查,每一维的特征都分开检查。观察其分布是否有明显区别。
一 缺失值处理:
1.将有缺失值的样本去除或者进行填补。
可以用平均值进行填补(如果满足正态分布的话);用中位数进行填补(偏态分布或者离群值的分布),这种情况下一次性填补一列的值。
2.可以通过特征之间的相关关系填补
用cor算出各个特征间的相关系数,忽略缺失值计算。选择与缺失值有高相关性的特征,构建线性模型(如果两个特征不是同时有缺失值的话)。
3.通过样本之间的相关性填补、
寻找与含有缺失值的样本最相似的10个样本 ,计算这10个样本的中位数或者众数(对于非数值变量);也可以计算10个样本距离的加权均值,与有缺失值的样本距离最近则权重越大(如果距离为d,权重可以设为e^-d),注意在计算距离之前要标准化处理。
最后值得注意的是,不管是哪一种填补方法都是有误差存在的,如果数据集的量很大的话,可