- split – apply – combine模式
大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较。
因此对数据的转换,可以采用split – apply – combine模式来进行处理:
split:把要处理的数据分割成小片断;
apply:对每个小片断独立进行操作;
combine:把片断重新组合。
-
分划:split函数
在R当中,split这个步骤是由split( ),subset( )等等函数完成的。
下面主要介绍split这个函数。
##例1:对向量分组
> library(MASS)
#使用Cars93数据集,利用其中的Origin变量(两个水平),对Price变量分组
> g<-split(Cars93$Price,Cars93$Origin)
#分组结果是个列表:
$USA
[15] 18.4 15.8 29.5 9.2 11.3 13.3 19.0 15.6 25.8 12.2 19.