自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 流浪地球与上海堡垒豆瓣影评对比分析

2020-08-11 14:54:00 252

原创 R语言数据挖掘(3)——关联分析

一、基本概念1.支持度(support)支持度是指在所有项集中{X,Y}出现的可能性,即项集中同时含有X和Y的概率support(X→Y)=P(X,Y)通过最小阈值的设定,剔除频率较低的无意义规则。满足support(Z)>=minsup的项集Z,称为频繁项集。2.置信度(confidence)置信度表示在关联规则的先决条件X发生的条件下,关联结果Y发生的概

2017-10-16 21:52:47 4010

原创 R语言数据挖掘(2) 数据预处理

一 、数据清理检查数据质量的重要性除了在建立模型之前需要完成数据清理,在对数据结构的探索和对模型的描述和预测过程中都需要不断检查数据质量探索的过程中,出现任何异常情况都需要解释和处理。比如分类变量应该注意频率特别低的类别,它可能是错误分类或者原本属于相邻类别的数据1.缺失值处理1.1判断缺失值的方法sum(is.na(x))     NA的总个数sum(

2017-10-10 10:56:59 3370

原创 R语言数据挖掘(1) 探索性数据分析

一、抽样 1.分层抽样strata(data,stratanames=NULL, size,method=c("srswor","srswr","poisson","systematic"),pik,description=FALSE)size是一个向量stratanames:分层依据的变量method:无放回,有放回,泊松,系统抽样description:给出层数、每层样

2017-10-08 20:48:16 1450

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除