上一篇文章中写到了管道,这部分主要写一下处理缺失值,计数,常用的摘要函数,按多个变量分组和取消组。
一、处理缺失值
有两种比较好的方法:①使用na.rm=TRUE;②使用!is.na()
场景一:我们想计算一下飞机飞行距离及延误到达时间。
delay<- flights%>%
group_by(dest)%>%
summarize(
count=n(), #起到计数的作用
dis = mean(distance),
arr_delay = mean(arr_delay)
)
delay
输出结果:
出现了很多NA,说明有些飞机是取消航班的,但也被记录了下来。
加个na.rm=TRUE会是什么样的呢?
delay<- flights%>%
group_by(dest)%>%
summarize(
count=n(), #起到计数的作用
dis = mean(distance,na.rm=TRUE),
arr_delay = mean(arr_delay,na.rm=TRUE)
)
delay

没有了NA值!
场景二:我们想计算一下每个航班的平均延误到达时间。
先将

本文介绍了如何在R语言中处理缺失值,包括使用`na.rm=TRUE`和`!is.na()`方法,并展示了如何进行计数、使用摘要函数。文章通过实例讲解了分组摘要操作,如计算平均延误时间、计数和画图表示,以及常见摘要统计量如位置度量、分散程度度量等。
最低0.47元/天 解锁文章
536

被折叠的 条评论
为什么被折叠?



