生信小白菜之关于summarize函数的一切(part 1)

准备包和示例数据

library(dplyr)
library(nycflights13)
library(ggplot2)

summarize()的基本用法

# 获取摘要的函数
# 作用是将数据框折叠成一行
# 举例
summarise(flights,delay=mean(dep_delay,na.rm=T))
# 第二个参数新的一列,也是根据数据框原有数据计算得来
# 返回结果为新的数据框
# na.rm=T 后面解释

summarize()最常使用方式是与group_by联用

# group_by 可以将分析单位从整个数据集更改为单个分组
# 然后在分组后的数据上使用dplyr函数,会自动对应地应用到每个分组上
# 举例
# 按日期分组,得到每日平均延误时间
by_day <- group_by(flights,year,month,day)
summarise(by_day,delay=mean(dep_delay,na.rm=T))
# 这个表内年份都是2013,所以year分组看不出来
# month是从1—12月,每月从1-31号

summarize()group_by组合,构成dplyrR包里面最常用的功能之一:获取分组摘要

关于管道组合

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值