library(tidyverse)
library(nycflights13) #利用该包中的flights数据
flights
#### R语言中的变量类型
# int——整数型变量
# dbl——双精度浮点数型变量,或称实数
# chr——字符串
# dttm——日期时间型变量
# lgl——逻辑型变量
# fctr——因子,即具有固定数目的值的分类变量
# date——日期型变量
####使用filter()筛选行
(jan_1 <- filter(flights,month == 1,day == 1))
#比较浮点数是否相等时,不能使用==,而应该使用near()
near(sqrt(2) ^ 2, 2)
#逻辑运算符或
filter(flights,month == 11 | month == 12)
#等价于
(nov_dec <- filter(flights,month %in% c(11,12)))
#判定一个值是否为缺失值
is.na(3)
#filter()默认排除条件为FALSE和NA的行。如果想保留缺失值,可以明确指出
df <- tibble(x = c(1, NA, 3))
filter(df, is.na(x) | x > 1)
####使用arrange()排列行
#按默认升序
arrange(flights,year,month,day)
#按降序
arrange(flights,desc(arr_delay))
#缺失值总是排在最后
df <- tibble(x = c(5,2,NA))
arrange(df,x)
####使用select()选择列
#按名称选择列
select(flights,year,month,day)
#选择year和day之间所有的列(包括year和day)
select(flights,year:day)
#选择不在year和day之间所有的列(不包括year和day)
select(flights,-(year:day))
#重命名变量
rename(flights,tail_num = tailnum)
#将几个变量移动到数据框的开头
select(flights,time_hour,ai
利用R语言的dplyr包进行数据转换
于 2018-12-20 11:51:04 首次发布

最低0.47元/天 解锁文章
2276

被折叠的 条评论
为什么被折叠?



