
数据挖掘:R语言实战
文章平均质量分 50
MarchOrHome
这个作者很懒,什么都没留下…
展开
-
2.数据挖掘的十大算法
先MARK一下吧,目前都不会,不过学懂学会一个就在这里改一个,红色代表未学。1、C4.5C4.5是机器学习算法中的一个分类决策树算法,是根据决策树核心算法ID3(也不会)的改进算法,常用于预测模型的算法。2、K-Means算法K-Means算法是数据挖掘技术中基于分裂法的一个经典聚类算法,是把n个对象分为k个簇。3、SVM(支持向量机)算法。SVM是原创 2015-03-26 20:13:07 · 679 阅读 · 0 评论 -
3.数据抽样以及R实现
先说一下简单的数据处理,处理之前先给出R的IDE下载网址:http://mirrors.xmu.edu.cn/CRAN/ 有时候下的版本过于简单,会有很多数据包都没有,这个时候直接 程序包--->安装程序包--->选择站点--->选择包名,然后就可以自动下载了。 然后加载数据使用如下命令:> library(package_name) #加载含有数据集的软件原创 2015-03-26 20:19:23 · 823 阅读 · 0 评论 -
1.数据挖掘导引
Data Mining 概述:是指通过系统分析从大量数据中提取隐藏于其中的规律,并用这些规律来预测未来或指导未来工作的科学。 过程:1.数据准备。 a.数据集成。(提取数据,处理数据中的遗漏和清洗)b.数据选择。(选择自己感兴趣的数据,缩小范围,提高数据挖掘的质量)c.数据预处理。(检查数据的完整性和一致性,消除噪声)2.数据挖掘。(利用机器学原创 2015-03-24 21:25:52 · 409 阅读 · 0 评论 -
用R获取数据
这一章学的不怎么熟,还是有很多的疑问,需要自己以后来好好学习,熟悉了解,先把自己知道的东西记下来吧。 获取内置的数据集: data( package = "packageName" ) #packageName是包名的意思,例如dataset包,就是查看该包下的数据集。 data( package = .packages( all.available = TR原创 2015-04-06 13:27:56 · 454 阅读 · 0 评论 -
数据集基本信息查看
一些基本的函数用法。 attributes( datasetName ) # 获取数据集的属性列表 names表示列名,class表示类别,row.names就不解释了 str( dataSetName ) # 查看数据集内部结构 64个对象,每个对象是一个5维变量,后面是对每一维的解释,取值 #原创 2015-04-06 13:58:24 · 2392 阅读 · 0 评论 -
数据集的基本信息(二)
基本的介绍一些分布指标,稀疏性,缺失值和相关性。 分布指标: 主要就是两个指标 ------- 偏度和峰度 可以由上一篇中带过的basicStats()函数获得,也可以由timeDate软件包中的skewness(),kurtosis()两个函数计算得到 偏度: 它用于衡量数据的偏倚程度,也就是数据的对称程度。 skewness( Insurance[,4:5原创 2015-04-06 14:34:19 · 863 阅读 · 0 评论 -
数据的预处理
按照道理而言,预处理就基本上进入数据挖掘的技术阶段了,目前自己还是一个小白而已,就说说自己从书上学到的一些吧。 数据清理: 就是对某些特殊的情况进行处理,让挖掘的数据质量更高些,更容易得到更好的结果。 1.缺失值处理 判断缺失值,我自己喜欢用 A = which( is.na(nhanes2[,4]) == T ) ①删除法, 习惯用 good = nhanes原创 2015-04-06 14:59:12 · 418 阅读 · 0 评论