1、数据检查
数据检查是数据挖掘的第1步,从不同的维度检查数据,找出其中有问题的数据以便对其进行修正。
1.1 数据类型
查看数据的构成与形态,尤其是各列的属性。
> library(MASS)
> data(ChickWeight)
> str(ChickWeight)
Classes ‘nfnGroupedData’, ‘nfGroupedData’, ‘groupedData’ and 'data.frame': 578 obs. of 4 variables:
$ weight: num 42 51 59 64 76 93 106 125 149 171 ...
$ Time : num 0 2 4 6 8 10 12 14 16 18 ...
$ Chick : Ord.factor w/ 50 levels "18"<"16"<"15"<..: 15 15 15 15 15 15 15 15 15 15 ...
$ Diet : Factor w/ 4 levels "1","2","3","4": 1 1 1 1 1 1 1 1 1 1 ...
- attr(*, "formula")=Class 'formula' language weight ~ Time | Chick
.. ..- attr(*, ".Environment")=<environment: R_EmptyEnv>
- attr(*, "outer")=Class 'formula' language ~Diet
.. ..- attr(*, ".Environment")=<environment: R_EmptyEnv>
- attr(*, "labels")=List of 2
..$ x: chr "Time"
..$ y: chr "Body weight"
- attr(*, "units")=List of 2
..$ x: chr "(days)"
..$ y: chr "(gm)"
1.2 数量检查
样本个数太少会影响结果的解释程度,而样本个数太多,则统计上的显著则可能没有实际意义。
1.3质量检查
1.3.1数据的集中趋势
数据集中趋势的衡量方法包括平均数、中位数、众数、偏态系数、峰态系数等。
1.3.2数据的变异程度
数据的变异程度可以用标准差、四分位距、变异系数等进行衡量。
可以用psych包中的describe()的函数进行数据检查,它可以计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误。例如,对MASS包中的ChickWeight数据进行检查的实例如下:
>