有两种类型的变量:类别(名义型)变量和有序类别(有序型),他们在R中称为因子(factor),函数factor()以一个整数向量的形式存储类别值,整数的取值范围是[1... k ](其中k 是名义型变量中唯一值的个数),同时一个由字符串(原始值)组成的内部向量将映射到这些整数上。
举例来说,假设有向量:
diabetes <- c(“type1”,”type2”,”type1”,”type1”)
语句diabetes <- factor(diabetes)将此向量存储为(1, 2, 1, 1),并在内部将其关联为1=Type1和2=Type2(具体赋值根据字母顺序而定)。针对向量diabetes进行的任何分析都会将其作为名义型变量对待,并自动选择适合这一测量尺度的统计方法。
#创建factor
gender.vector <- c("Male", "Female", "Female", "Male", "Male")
factor.gender.vector <- factor(gender.vector)
factor.gender.vector
> factor.gender.vector
[1] Male Female Female Male Male
Levels: Female Male
hair.color.vector <- c("Blonde", "Blonde", "Brunette", "Ginger", "Grey", "Brunette")
temperature.vector <- c("High", "Low", "High", "Low", "Medium")
理解R语言中的因子(factor)数据结构

本文介绍了R语言中的因子数据结构,用于处理类别变量,包括名义型和有序型。通过factor()函数,将字符串转换为整数表示,并保持内部与原始值的映射。举例展示了如何创建和操作因子,包括设置有序级别和重新定义水平。因子在统计分析中起到关键作用,确保正确应用适合名义或有序变量的统计方法。
最低0.47元/天 解锁文章
41

被折叠的 条评论
为什么被折叠?



