R语言数据结构与数据管理全解析
1. 因子(Factors)
因子是一种特殊的向量,专门用于表示分类或有序数据。例如,在构建医疗数据集时,可以用因子来表示患者的生物性别,记录“男性”和“女性”两个类别。
使用因子而非字符向量有两个主要优势:
- 节省内存 :类别标签只需存储一次。例如,计算机可以存储 1, 1, 2 来代替 MALE, MALE, FEMALE,从而减少存储值所需的内存。
- 机器学习算法兼容性 :许多机器学习算法对名义和数值特征的处理方式不同。将分类特征编码为因子可以让 R 正确处理这些特征。
创建因子的方法是对字符向量应用 factor() 函数。示例代码如下:
gender <- factor(c("MALE", "FEMALE", "MALE"))
gender
输出结果:
[1] MALE FEMALE MALE
Levels: FEMALE MALE
这里的 Levels 表示因子可能的类别集合。
在创建因子时,还可以添加原始数据中可能未出现的额外级别。例如:
blood <- factor(c("O", "AB", "A"),
levels = c("A", "B", "AB",
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



