准备包和示例数据
library(dplyr)
library(nycflights13)
library(ggplot2)
summarize()
的基本用法
# 获取摘要的函数
# 作用是将数据框折叠成一行
# 举例
summarise(flights,delay=mean(dep_delay,na.rm=T))
# 第二个参数新的一列,也是根据数据框原有数据计算得来
# 返回结果为新的数据框
# na.rm=T 后面解释
summarize()
最常使用方式是与group_by
联用
# group_by 可以将分析单位从整个数据集更改为单个分组
# 然后在分组后的数据上使用dplyr函数,会自动对应地应用到每个分组上
# 举例
# 按日期分组,得到每日平均延误时间
by_day <- group_by(flights,year,month,day)
summarise(by_day,delay=mean(dep_delay,na.rm=T))
# 这个表内年份都是2013,所以year分组看不出来
# month是从1—12月,每月从1-31号
summarize()
和group_by
组合,构成dplyr
R包里面最常用的功能之一:获取分组摘要