- 博客(4)
- 收藏
- 关注
原创 R语言数据挖掘(3)——关联分析
一、基本概念1.支持度(support)支持度是指在所有项集中{X,Y}出现的可能性,即项集中同时含有X和Y的概率support(X→Y)=P(X,Y)通过最小阈值的设定,剔除频率较低的无意义规则。满足support(Z)>=minsup的项集Z,称为频繁项集。2.置信度(confidence)置信度表示在关联规则的先决条件X发生的条件下,关联结果Y发生的概
2017-10-16 21:52:47
4010
原创 R语言数据挖掘(2) 数据预处理
一 、数据清理检查数据质量的重要性除了在建立模型之前需要完成数据清理,在对数据结构的探索和对模型的描述和预测过程中都需要不断检查数据质量探索的过程中,出现任何异常情况都需要解释和处理。比如分类变量应该注意频率特别低的类别,它可能是错误分类或者原本属于相邻类别的数据1.缺失值处理1.1判断缺失值的方法sum(is.na(x)) NA的总个数sum(
2017-10-10 10:56:59
3370
原创 R语言数据挖掘(1) 探索性数据分析
一、抽样 1.分层抽样strata(data,stratanames=NULL, size,method=c("srswor","srswr","poisson","systematic"),pik,description=FALSE)size是一个向量stratanames:分层依据的变量method:无放回,有放回,泊松,系统抽样description:给出层数、每层样
2017-10-08 20:48:16
1450
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅