使用背景
我们时常需要对数值型数据进行归类,如我们收集收入时往往需要给出最直观的变量来告知我们这个值的收入是高、低还是中等。当然我们可以通过一系列函数来实现这个目的,但是cut函数是在R里最适合这类情况的。
函数介绍
cut函数中的变量,最常用的便是labels & names。
例子:
income<- as.vector(c(1000,2000,3000,4000,5000,8000,9500,12000,5000,2300,30000))
age<- c(20,18,23,22,30,44,23,33,30,29,40)
data<-data.frame(age,income)
data
这是初始data,结果为:
> data
age income
1 20 1000
2 18 2000
3 23 3000
4 22 4000
5 30 5000
6 44 8000
7 23 9500
8 33 12000
9 30 5000
10 29 2300
11 40 30000
如果希望加一列column来将income分类为 low,medium以及high,标准为income<=3000定义为low, 3000<income<=8000为medium, income>8000为high,我们可以使用which(data$[,2]>8000)类似的code来归类,但是很麻烦,cut函数完美解决了这个问题。