时间: 2018-07-17
教程:慕课网 《R语言基础》 讲师:Angelayuan
补充内容:subset和merge函数的使用
学习内容:课程第三章:构建子集
构建子集
1.向量的子集(基本方法)
在进行数据处理时,我们直接获得的数据为原始数据(raw dataset),大多数情况下,原始数据并不是我们可以直接使用的数据,在进行数据处理前我们需要对数据进行预处理,其中,很重要的一步就是构建子集。
构建子集有很多种方法:
[]:提取一个或多个相同类型的元素
[[]]:从列表或数据框中提取元素
$:按名字从列表或数据框中提取元素。
如:
> y <- c(1,4,7,2,4,7,1,8,5,8,3,7)
> y[7] # 返回y中的第7个元素
[1] 1
需要注意的是,R中向量的元素的顺序是从1开始排的。
> y[1:5] # 返回y中的第1-第5个元素
[1] 1 4 7 2 4
> y[y>5] # 返回y中大于5的元素
[1] 7 7 8 8 7
> y>5
[1] FALSE FALSE TRUE FALSE FALSE TRUE FALSE TRUE FALSE TRUE FALSE
[12] TRUE
可以看出,y>5得到的结果是,满足条件的为TRUE,不满足条件的为FALSE,y[y>5]返回的就是使[]里的条件为TRUE的元素。
> y[y>5 & y<8] # 返回y中大于5且小于8的元素
[1] 7 7 7
> z <- y>5 & y<8
> y[z]
[1] 7 7 7
> y[y<4 | y>7] # 返回y中小于4或大于7的元素
[1] 1 2 1 8 8 3
> y1 <- 1:4
> names(y1) <- c("a","b","c","d") # 将y1中元素分别命名为a,b,c,d
> y1
a b c d
1 2 3 4
> y1[2]
b
2
> y1["b"]
b
2
可以看出,除了根据元素的顺序返回元素内容外,还可以根据元素的名称返回
2.矩阵的子集
如:
> x <- matrix(c(1,5,23,4,9,3), nrow=2, ncol=3)
> x
[,1] [,2] [,3]
[1,] 1 23 9
[2,] 5 4 3
> x[2,3] # 返回矩阵x中第2行第3列的元素
[1] 3
> x[1,] # 返回矩阵x中第1行的元素
[1] 1 23 9
> x[,1] # 返回矩阵x中第1列的元素
[1] 1 5
> x[2,c(1,3)] # 返回矩阵x中第2行第3、4列的元素
[1] 5 3
> class(x[1,2])
[1] "numeric"
可以看出使用x[]的方式获得的子集类型默认是一个向量。
在x[]中加入”drop = FALSE”,使返回的内容是一个矩阵,”drop = FALSE”的意思是关掉返回向量的选择。例:
> x1 <- x[1,2, drop = FALSE]
> x1
[,1]
[1,] 23
> class(x1)
[1] "matrix"
3.数据框的子集
如:
在建立好数据框后,可以根据需要对数据框中元素重新赋值。
格式:数据框名$列名[列中元素的序号] <- 所赋的值
> x <- data.frame(v1=1:5, v2=6:10, v3=11:15)
> x
v1 v2 v3
1 1 6 11
2 2 7 12
3 3 8 13
4 4 9 14
5 5 10 15
> x$v3[c(2,4)] <- NA # 将数据框x中v3列中的第2、4行内容设为缺失值
> x
v1 v2 v3
1 1 6 11
2 2 7 NA
3 3 8 13
4 4 9 NA
5 5 10 15
> rownames(x) = c("a","b","c","d","e")
> x
v1 v2 v3
a 1 6 11
b 2 7 NA
c 3 8 13
d 4 9 NA
e 5 10 15
> x$v1
[1] 1 2 3 4 5
> x$a
NULL
可以看出$后只能说是列名,而不能是行名
> x[4,2] # 返回数据框x中第4行第2列的元素内容
[1] 9
> x[2]
v2
a 6
b 7
c 8
d 9
e 10
> x["v2"]
v2
a 6
b 7
c 8
d 9
e 10
可以看出,返回x[2]和返回x[“v2”],所得到的结果是一致的,v2是第2列的名称,x[“v2”]的意思为返回v2对应的列,也就是第2列,而x