生信小白菜之关于summarize函数的一切(part 2)

本文详细介绍了如何在R语言的`forDataScience`环境中使用各种统计和聚合函数,如mean(),median(),sd(),quantile(),n(),count(),对航班数据进行位置度量、分散程度度量、秩的度量以及计数和比例分析,包括分组、筛选和新变量创建,以理解和分析航班的延误情况和特性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《R for Data Science》

常用的摘要函数

summarize()搭配使用

位置度量

# 前面用过mean() 求均值

# median() 求中位数
# 即50%的x大于它,同时50%的x小于它
# 举例
not_cancelled %>% 
  group_by(year,month,day) %>% 
  summarize(
    avg_delay1=mean(arr_delay), # 平均延误时间
    avg_delay2=mean(arr_delay[arr_delay>0]), # 平均正延误时间
    avg_delay3=median(arr_delay[arr_delay>0]) # # 正延误时间中位数
  )

# 有时候需要将聚合函数和逻辑筛选组合起来 (后面再讲)

分散程度度量

# 均方误差(又称标准误差,standard deviation,sd),衡量数据离散程度
# 四分位距IDR()和绝对中位差mad()基本等价,更适合有离群点的情况

# 为什么到某些目的地的距离比到其他目的地更多变?
not_cancelled %>% 
  group_by(dest) %>% # 按目的地分组
  summarise(distance_sd=sd(distance)) %>% 
  arrange(desc(distance_sd))

秩的度量

# 分位数是中位数的扩展
# 例如,quantile(x,0.25)会找出x中按从小到大顺序位于25%位置的数字
x<-c(1:10)
quantile(x,0.25) # 25% 3.25 
quantile(x,0.75) # 75% 7.75

# 最小值 min()

# 最大值 max()

# 每天最早和最晚的航班何时出发
not_cancelled %>% 
  group_by(year,month,day) %>% 
  summarize(
    first = min(dep_time),
    last = max(dep_time)
  )

定位度量

# 取第一个first(x),作用等同于 x[1]
# 取第二个nth(x,2),作用等同于 x[2] ## 当然也可以是任意数字/位置
# 取最后一个last(x),作用等同于 x[length(x)]

# 它们的优势是当定位不存在时
# 例如,从只有两个元素的分组中得到第三个元素
# 它们允许你设置一个默认值

# 找出每日最早、最晚出发的航班
not_cancelled %>% 
  group_by(year,month,day) %>% 
  summarise(
    first_dep=first(dep_time),
    last_dep=last(dep_tim
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值