基于R的数据挖掘方法与实践(1)——数据准备

本文介绍了基于R的数据挖掘第一步——数据检查,包括数据类型、数量、质量和清理等方面。通过数据类型检查确保数据形态正确,数量检查评估样本合适性,质量检查涉及集中趋势和变异程度的度量,数据清理则关注不正确、不一致、重复、冗余、遗漏值和噪声的处理。数据转换包括归一化和标准化等操作,确保数据适合后续挖掘。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、数据检查

数据检查是数据挖掘的第1步,从不同的维度检查数据,找出其中有问题的数据以便对其进行修正。

1.1 数据类型

查看数据的构成与形态,尤其是各列的属性。

> library(MASS)
> data(ChickWeight)
> str(ChickWeight)
Classes ‘nfnGroupedData’, ‘nfGroupedData’, ‘groupedData’ and 'data.frame':	578 obs. of  4 variables:
 $ weight: num  42 51 59 64 76 93 106 125 149 171 ...
 $ Time  : num  0 2 4 6 8 10 12 14 16 18 ...
 $ Chick : Ord.factor w/ 50 levels "18"<"16"<"15"<..: 15 15 15 15 15 15 15 15 15 15 ...
 $ Diet  : Factor w/ 4 levels "1","2","3","4": 1 1 1 1 1 1 1 1 1 1 ...
 - attr(*, "formula")=Class 'formula'  language weight ~ Time | Chick
  .. ..- attr(*, ".Environment")=<environment: R_EmptyEnv> 
 - attr(*, "outer")=Class 'formula'  language ~Diet
  .. ..- attr(*, ".Environment")=<environment: R_EmptyEnv> 
 - attr(*, "labels")=List of 2
  ..$ x: chr "Time"
  ..$ y: chr "Body weight"
 - attr(*, "units")=List of 2
  ..$ x: chr "(days)"
  ..$ y: chr "(gm)"

1.2 数量检查

样本个数太少会影响结果的解释程度,而样本个数太多,则统计上的显著则可能没有实际意义。

1.3质量检查

1.3.1数据的集中趋势

数据集中趋势的衡量方法包括平均数、中位数、众数、偏态系数、峰态系数等。

1.3.2数据的变异程度

数据的变异程度可以用标准差、四分位距、变异系数等进行衡量。

可以用psych包中的describe()的函数进行数据检查,它可以计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误。例如,对MASS包中的ChickWeight数据进行检查的实例如下:

> 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值