基于R语言对哺乳动物睡眠时间sleep数据集的分析

本文介绍了R语言在数据处理和分析中的应用,包括缺失值处理、决策树构建和聚类分析。通过使用VIM和mice包处理数据中的缺失值,然后使用C5.0构建决策树模型,展示了如何根据哺乳动物的特征预测其被捕食程度。此外,还运用了k-means和K-Medoids等多种聚类方法对数据进行深入分析,探讨了不同聚类算法的效果。文章最后强调了数据预处理和挖掘方法在理解和解释数据中的关键作用。

在这里插入图片描述
前言
R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点:
1.R是自由软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。
2.R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,如,SPSS,SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到。 [1]
3. 所有R的函数和数据集是保存在程序包里面的。只有当一个包被载入时,它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中,随着新的统计分析方法的出现,标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中,已经包含的程序包有:base一R的基础模块、mle一极大似然估计模块、ts一时间序列分析模块、mva一多元统计分析模块、survival一生存分析模块等等.
4.R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。
5.如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地.

数据处理
数据(Data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理(data processing)是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响了人类社会发展的进程。

数据挖掘
数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。知识发现过程由以下三个阶段组成:①数据准备;②数据挖掘;③结果表达和解释。数据挖掘可以与用户或知识库交互。
数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。

1.数据处理与分析

1.1在列表中显示缺失值

在获得数据集后首先观察数据,数据中总共61个数据,但在部分样本的部分属性存在空值,需要对这些值进行分析和处理,能否直接去除,是否会影响对于该数据集分析结果。
导入VIM 和 mice包
library(VIM)
library(mice)
data(sleep,package = “VIM”)
md.pattern(sleep)
获得了包含缺失值的一个矩阵
表中1和0显示了缺失值模式,第一列表示各缺失值模式的实例个数,最后一列表示各模式中有缺失值的变量的个数。此处可以看到,有42个实例没有缺失值,仅2个实例缺失了Span。数据集包含了总共 38个缺失值。最后一行给出了每个变量中缺失值的数目。
在这里插入图片描述
在这里插入图片描述

1.2 整体缺失情况与变量缺失情况

aggr(sleep,prop=False,number=TRUE)
在这里插入图片描述
Marginplot(sleep[c(“Sleep”,”Dream”)],pch=c(20),col=c(“darkgray”,”red”,”blue”))
在这里插入图片描述
在图中,可以观察到数据的整体分布比较散,且存在数据间跨度较大的问题,在本次分析中,选择直接去除空值对研究结果不造成影响
sleep<-na.exclude(sleep)
获得干净的sleep数据集
在这里插入图片描述

2.建立数据模型

2.1数据集说明

本次选用的数据集为哺乳动物睡眠数据sleep,其中包含43个有效数据,每个数据共10个属性,说明如下:
第一列:BodyWgt 体重
第二列:BrainWgt 脑重
第三列:NonD 不睡觉时间
第四列:Dream 做梦时间
第五列:Sleep 睡眠时长
第六列:Span 寿命
第七列:Gest 妊娠期
第八列:Pred 物种被捕食的程度
第九列:Exp 睡眠时暴露的程度
第十列:Danger 面临的总危险程度

2.2决策树的构建


1.数据处理


在本次实验中,所选用的实验环境为RStudio,首先我们使用Sleep来查看sleep中所含有的数据集,可以观察到,该数据集中有许多对象的数值为NA,此时我们需要对这些数据进行处理,以免空白值会对研究结果产生影响。

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值