R是用于统计计算和绘图函数语言。R语言主要包括两个概念:对象和函数。
基本数据结构
R中的数据结构主要有5中,如下图所示:
所有对象都有模式(mode)和长度属性向量,分别指示对象中元素的类型和元素的个数。
变量可以分为名义型、有序型和连续型,因子是指名义型(如水果类型:苹果、葡萄等)和有序型(如水果质量等级:极品、优质、普通)。在R中因子类型决定了数据的分析和进行视觉展示的方式。
向量
矩阵和数组
矩阵是二维数组
矩阵
增加行或列
rbind(mymatrix[1:2,], 0, mymatrix[3:4,]) 插入一行0
cbind(mymatrix[,1:3], 1, mymatrix[,4:5]) 插入一列1
删除行或列
mymatrix[-1,]
mymatrix[,-1]
判断对象类型
is.vector(test)
is.matrix(test)
is.data.frame(test)
对象类型转换
newDataFram<-data.frame(aMatrix)
判断对象元素类型
mode(test)#dataframe的元素类型多是List
获取名字
names(aDataFrameOrVector)
colnames(aMatrix)
rownames(aMatrix)
列表
列表是以其他对象为成分的有序的集合。列表中的成分和向量中的元素不同之处在于:成分不一定是同一种类型,而且成分总是编号的并且有一个名称属性。
可以通过unlist()将列表转换为向量。
数据框
因子
无序因子
fac<-c('apple','grape')
fac<-factor(fac)
有序因子
fac<-c('A','B','C')
fac<-factor(fac,ordered=TURE)
常用函数
分为数值处理函数和字符处理函数。
数值处理函数:数学函数(如abs(x))、统计函数(如mean(x),sd(x),cov(x,y),sample(1:20,size=6))、概率函数(如dnom(),runif(10000))
字符处理函数:如substr()
其他:seq()
getwd()#查看当前工作目录
setwd("D:\\path\\to\\Rwork")#设置工作目录
工具包
数据重塑reshape
参考文献
1.数据挖掘与R语言
2.R语言实战