数据探索与统计分析:从类型推断到数据可视化
1. 推断数据列的类型
在处理新数据集时,首先要弄清楚当前表中每列代表的含义,也就是获取数据字典信息。没有这些标识信息,很难理解数据的意义。例如,面对如下未标记的数据集:
| | | |
| — | — | — |
| “1” | 73.847017017515 | 241.893563180437 |
| “0” | 58.9107320370127 | 102.088326367840 |
我们甚至难以确定第一列是字符串还是数字。当遇到无标签数据集时,可以使用R语言内置的类型判断函数,以下是三个重要函数:
| R函数 | 描述 |
| — | — |
| is.numeric | 若向量元素为数字(整数或浮点数),返回TRUE,否则返回FALSE。 |
| is.character | 若向量元素为字符串,返回TRUE,否则返回FALSE。R语言没有单字符数据类型。 |
| is.factor | 若向量元素为因子水平(R语言用于表示分类信息的数据类型,类似于SQL中的枚举),返回TRUE,否则返回FALSE。R语言中的大多数统计函数适用于数值向量或因子向量,而非字符向量。 |
每列的基本类型信息很重要,因为R函数的行为通常取决于输入类型。例如,当前数据集中以字符形式存储的0和1,在使用某些R内置函数前需转换为数字,而使用其他函数时可能需转换为因子。这种类型转换的需求源于机器学习中处理分类差异的传统。在机器学习和统计学中,用0和1描述对象定性属性的方式称为虚拟编码,它与R语言的因子不同,因子使用显式标签表达定性属性。
注意,
超级会员免费看
订阅专栏 解锁全文
1472

被折叠的 条评论
为什么被折叠?



