R语言因素与tapply函数-优快云博客

4 排序和非排序因素

因素（Factor)用于表示一个具有相同长度的离散组组的向量的一个向量对象。R提供了排序和非排序的因素。

4.1 一个具体例子

举个例子，我们有一个30个州的的士帐号样本，帐号所属的州由字符串向量state保存：

> state <- c("tas", "sa", "qld", "nsw", "nsw", "nt", "wa", "wa",
"qld", "vic", "nsw", "vic", "qld", "qld", "sa", "tas",
"sa", "nt", "wa", "vic", "qld", "nsw", "nsw", "wa",
"sa", "act", "nsw", "vic", "vic", "act")

简单地通过factor()函数来创建因素：

> statef <- factor(state)

print()函数打印因素的方式与其它对象略有不同，会在最后一行打印出Levels信息。

> statef
[1] tas sa qld nsw nsw nt wa wa qld vic nsw vic qld qld sa
[16] tas sa nt wa vic qld nsw nsw wa sa act nsw vic vic act
Levels: act nsw nt qld sa tas vic wa

可以通过levels()函数来得到因素的级别

>levels(statef)

[1] "act" "nsw" "nt" "qld" "sa" "tas" "vic" "wa"

4.2 tapply()函数和不规则数组

继续上面的例子，假设我们有的士帐号的收入信息，并储存在另一个向量当中

> incomes <- c(60, 49, 40, 61, 64, 60, 59, 54, 62, 69, 70, 42, 56,
61, 61, 61, 58, 51, 48, 65, 49, 49, 41, 48, 52, 46,
59, 46, 58, 43)

为了计算每个州的平均收入，我们可以使用tapply()函数：

> incmeans <- tapply(incomes, statef, mean)

结果为以州级别为标签的平均收入的向量：

act nsw nt qld sa tas vic wa

44.500 57.333 55.500 53.600 55.000 60.500 56.000 52.250

函数tapply()用于将一个函数（这里为mean())应用到第一个参数（这里为incomes)中的每一个元素上，并由第二个参数（这里为statef）的元素级别来定义，就像它们是独立的向量结构。结果是一个和因素级别长度相同的向量。