R语言数据选择、管理与转换全解析
1. 变量和观测值的选择
在数据分析过程中,我们常常需要从数据集中选择特定的变量和观测值。以下是几种常见的选择方法:
1.1 使用 subset
函数
subset
函数可以根据条件筛选观测值,并选择指定的变量。例如,我们要选择性别为男性且包含 workshop
和 q1
到 q4
变量的子集:
summary(
subset(mydata,
subset=gender=="m",
select=c(workshop, q1:q4) )
)
由于R允许在参数顺序正确的情况下省略参数名,因此上述代码也可以写成:
summary(
subset(mydata, gender=="m",
c(workshop, q1:q4) )
)
如果需要多次使用这个子集,将其保存到一个数据框中会更方便:
myMalesWQ <- subset(mydata,
subset=gender=="m",
select=c(workshop, q1:q4)
)
print(myMalesW