R语言聚合/汇总每组的多个变量
在数据分析和统计建模中,我们经常需要对数据进行聚合或汇总,以便得到更加全面和有意义的结果。R语言提供了多种方法来实现这一目的。本文将介绍一些常用的技术,包括使用dplyr和data.table包以及基本的R函数。
首先,我们将使用dplyr包来演示如何聚合/汇总每组的多个变量。假设我们有一个数据集,其中包含了学生的姓名、年龄和分数。我们想要按照性别来计算每个性别的平均年龄和平均分数。
# 安装和加载dplyr包
install.packages("dplyr")
library(dplyr)
# 创建示例数据集
students <- data.frame(
name = c("Alice", "Bob", "Charlie", "David", "Eve"),
gender = c("Female", "Male", "Male", "Female", "Female"),
age = c(20, 22, 21, 19, 20),
score = c(85, 90, 78, 92, 88)
)
# 使用dplyr包进行聚合/汇总
summary <- students %>%
group_by(gender) %>%
summarise(avg_age = mean(age), avg_score = mean(score))
# 输出结果
print(summary)
上述代码首先安装并加载了dplyr包,然后创建了一个包含学生信息的数据框。接下来,使用group_by函数指定了按照性别进行分组,并使用
本文详细介绍了R语言中如何使用dplyr、data.table包以及基础函数进行数据聚合和汇总,以性别为例,计算每个性别的平均年龄、平均分数、最大年龄、最小分数及中位数年龄和总分数。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



